胞嘧啶脱氨酶及其在碱基编辑中的用途

未命名 08-13 阅读：113 评论：0

1.本发明涉及基因工程领域。具体而言，本发明涉及胞嘧啶脱氨酶及其在碱基编辑中的用途。更具体而言，本发明涉及一种基于新鉴定的胞嘧啶脱氨酶的碱基编辑系统，使用该碱基编辑系统对生物体(例如植物)基因组中的靶序列进行碱基编辑的方法，以及通过所述方法产生的经遗传修饰的生物体(例如植物)及其后代。
2.发明背景
3.对生物体的基因组进行特定序列的修改，可以赋予生物体新的可稳定遗传的性状。其中，特定位点的单核苷酸的变异，有可能导致基因的氨基酸序列发生改变或提前终止，或者导致调控序列的改变，从而导致优良性状的产生。基因组编辑技术，例如crispr/cas9系统，可以实现靶向基因组目标序列的功能。利用基因组编辑系统与目标序列结合的特性，将其与脱氨酶进行结合所开发出的碱基编辑系统，可以精准地对基因组上的靶核苷酸进行脱氨。其中，胞嘧啶碱基编辑系统通过融合apobec/aid家族及类apobec/aid家族脱氨酶，可以实现目标位点胞嘧啶(c)向尿嘧啶(u)的转变，之后在细胞中相关修复途径的帮助下实现胞嘧啶向胸腺嘧啶(t)的转变。此外，通过在对侧未发生脱氨的单链引入缺刻使其断裂，可以显著提升碱基编辑的效率。
4.iyer等根据脱氨酶的结构比较，寻找具有潜在脱氨功能的蛋白，并将上述蛋白归成至少20种分支(iyer,l.m.,zhang,d.,rogozin,i.b.,&aravind,l.(2011).evolution of the deaminase fold and multiple origins of eukaryotic editing and mutagenic nucleic acid deaminases from bacterial toxin systems.nucleic acids research,39(22),9473-9497.)。他们发现不同分支的脱氨酶间在结构、序列上均有很大差异。其中，有些分支的功能已经被解析，包括可将dcmp转变为dump的“dcmp deaminase and come”分支，可将鸟嘌呤(g)转变为黄嘌呤(i)的“guanine deaminase”分支，具有二氨基羟基磷酸核糖酰氨基嘧啶脱氨酶功能的“ribd-like”分支，具有使rna腺嘌呤(a)转变黄嘌呤(i)的rna编辑酶功能的“tad1/adar”分支，具有甲酰基转移酶活性的“purh/aicar transformylase”分支等。而有些分支的功能，例如他们具体是否具有脱氨活性、可对什么样的底物进行脱氨尚未被解析或证实，例如来源于细菌的scp1.201分支、xoo2897分支、mafb19分支、pput_2613分支等。目前只有来源于apobec/aid分支的apobec1、apobec3、cda、aid以及cda1l1和cda1l2几种类型的脱氨酶被证明可以作用于单链dna，从而可被应用于胞嘧啶碱基编辑系统。
5.本领域仍然需要更多的可用于碱基编辑系统的脱氨酶，从而扩充碱基编辑系统、提升精确操纵目标dna序列的能力。
6.附图简述
7.图1：apobec/aid分支中的no.182(seq id no:1)潜在脱氨酶在报告系统中实现胞嘧啶碱基编辑。
8.图2：apobec/aid分支中的no.182(seq id no:1)潜在脱氨酶在内源位点中实现胞嘧啶碱基编辑。
9.图3：scp1.201分支中的no.69(seq id no:2)潜在脱氨酶在内源位点中实现胞嘧啶碱基编辑。
10.图4：具有高效编辑效率的8个脱氨酶在水稻osacc-t1内源位点的胞嘧啶碱基编辑效率。
11.图5：具有高效编辑效率的8个脱氨酶在水稻cdc48-t2内源位点的胞嘧啶碱基编辑效率。
12.图6：具有中等编辑效率的8个脱氨酶在水稻osacc-t1内源位点的胞嘧啶碱基编辑效率。
13.图7：具有中等编辑效率的8个脱氨酶在水稻cdc48-t2内源位点的胞嘧啶碱基编辑效率。
14.图8：基于alphafold2预测结构的蛋白质聚类流程。利用alphafold2预测候选序列的结构，并基于结构相似性进行聚类。随后在植物和人类细胞中实验测试了各结构分支的蛋白质对ssdna和dsdna的胞苷脱氨活性。
15.图9：候选脱氨酶的重新标注和合成流程。我们使用ncbi数据库中的protein blast(https://blast.ncbi.nlm.nih.gov/blast.cgi)获得了编码脱氨酶的基因全长，然后使用hmmscan重新标注脱氨酶域序列(https://www.ebi.ac.uk/tools/hmmer/search/hmmscan)。由此产生的域序列被用于结构分类。为了确认它们具有脱氨酶活性，我们合成了一些具有延长n端和c端序列的候选脱氨酶，然后用报告系统或在内源性位点评估它们的胞苷脱氨酶活性。
16.图10：结构相似性矩阵，反映了16个脱氨酶家族(238个)和一个外群jab(4个)的242个预测蛋白质结构之间的相似性。不同家族蛋白质用不同编号区分；热图颜色深浅表示相似程度。
17.图11：(a)根据蛋白质结构将蛋白质分类为不同的脱氨酶家族，不同家族用不同编号区分；(b)16个脱氨酶分支中每个分支的代表性预测结构。
18.图12：图11对应的lmjf365940、apobec、dcmp和mafb19家族的两个分支的代表性结构比对。虽然这四个家族的各自两个分支系间具有部分相似的结构，但两个分支系的整体结构表现出相对较大的差异，导致它们被归类为不同分支。
19.图13：(a)基于蛋白质结构的scp1.201脱氨酶分类。jab家族被视为外群，测试的脱氨酶根据功能分为单链编辑(ssdna)、双链编辑(dsdna)或无双链/单链编辑(non_ds/ss)显示。浅灰色未定义(undefined)的脱氨酶等待进一步的功能分析。图中单链编辑的脱氨酶域为：scp356、scp020、scp051、scp170、scp014、scp273、scp158、scp013、scp008、scp157、scp315、scp183、scp044、scp012、scp011、scp018、scp038、scp016、scp017；双链编辑的脱氨酶域为：scp271、scp103、scp009、scp006、scp004、scp234、scp177；其余已标注脱氨酶为未发生编辑的脱氨酶。(b)利用alphafold2预测ddda的核心结构。(c)ddd蛋白质(具有双链脱氨酶活性的蛋白质)的典型结构特征。(d)利用alphafold2预测sdd7的核心结构。(e)sdd蛋白(具有单链脱氨酶活性的蛋白质)典型结构的特征。
20.图14：ssdna和dsdna在动物细胞内源性位点胞嘧啶脱氨活性鉴定。(a)用于内源性位点编辑的ssdna碱基编辑载体示意图。(b)ddcbe载体和它的二分体示意图。(c)在hek293t细胞中分别检测对dsdna的ddcbe编辑活性和对ssdna的cbe编辑活性，并进行高通量测序。
21.图15：ddd在hek293t细胞中两个内源性位点的dsdna脱氨活性的实验评估。用于计算的碱基编辑位点，颜色深浅代表编辑效率的高低。
22.图16：(a)sdd在hek293t细胞中两个内源性位点的ssdna脱氨活性的实验评估。用于计算的碱基编辑位点，颜色深浅代表编辑效率的高低。(b)sdd在hsjak2和hssirt6位点的ssdna脱氨酶活性的实验评估。数据来自三个重复独立的实验的平均值。
23.图17：评估新发现的ddd蛋白质用作碱基编辑器的编辑特性。(a)scp1.201的dsdna脱氨酶ddd1、ddd7、ddd8、ddd9和ddda在hek293t细胞中两个基因组靶点的编辑效率和编辑窗口。(b)质粒文库分析，以分析哺乳动物细胞中每种ddd蛋白的上下文偏好。候选蛋白靶向并编辑“nc
10
n”基序。(c)通过质粒文库分析，总结了ddd1、ddd7、ddd8、ddd9和ddda的上下文偏好的基序logo图。图中，圆点表示单个生物重复，柱高表示编辑效率的平均值，误差条(error bars)表示三个独立生物实验的标准差。
24.图18：scp1.201 dsdna脱氨酶在hek293t细胞中两个靶点的编辑效率和编辑窗口热图。
25.图19：不同ddd脱氨酶在16种质粒文库中的上下文偏好的编辑效率所占百分比。数据由三个独立实验的平均值表示。
26.图20：评估新发现的sdd蛋白质在植物中用作碱基编辑器。十个sdd蛋白和rapobec1在水稻原生质体6个内源性靶点的整体编辑效率。其中将apobec1在每个靶点的平均编辑频率设置为1，并对各个sdd观察到的编辑效率进行相应的归一化。
27.图21：sdd脱氨酶和apobec1在水稻原生质体6个内源性靶点的编辑行为。(a-f)热图显示了水稻原生质体中10个sdd脱氨酶和apobec1在osaat(a)、osacc1(b)、oscdc48-t1(c)、oscdc48-t2(d)、osdep1(e)和osodev(f)位点的编辑效率和编辑窗口。热图单元中给出的值代表c-to-t编辑效率，颜色深浅代表编辑效率的高低。目标序列在热图上方列出，深色框标记c-to-t编辑的位置，最后三个浅色字体表示pams。数据由三个独立实验的平均值表示。
28.图22：scp1.201的ssdna脱氨酶和apobec脱氨酶在hek293t细胞3个内源性靶点的编辑行为。(a-c)热图给出了hek293t细胞中四种sdd脱氨酶以及apobec1、apobec3a、apobec1-ye1和apobec1-yee在hsemx1(a)、hshek2(b)和hswfs1(c)位点的编辑效率和编辑窗口。热图单元中给出的值代表c-to-t编辑效率，颜色深浅代表编辑效率的高低。目标序列在热图上方列出，深色框标记c-to-t编辑的位置，最后三个浅色字体标记pam。数据由三个独立实验的平均值表示。
29.图23：比较sdd7、apobec1和apobec3a在水稻原生质体中5个位点的编辑效率。(a-e)比较了sdd7，apobec1和apobec3a碱基编辑器在5个内源性靶点上的效率，(a)osactg，(b)osals-t1，(c)osals-t2，(d)oscdc48-t3和(e)osmpk16。数据是三个独立实验的代表性数据，柱高表示编辑效率的平均值，误差条(error bars)表示三个独立生物实验的标准差。
30.图24：sdd脱氨酶和apobec1在水稻原生质体中5个内源性靶点的序列偏好。堆叠图显示了10种sdd脱氨酶和apobec1在5个内源性靶点osaat、osacc1、oscdc48-t1、oscdc48-t2和osdep1的上下文偏好。条形图自下而上分别代表tc、ac、gc和cc的c-to-t的编辑偏好。数据是三个独立的实验的结果。
31.图25：(a)使用12k-trapseq文库对hek293t细胞中sdd和rapobec1的活性和性质进
行高通量量化的概述。(b)通过12k-trap文库评估sdd和rapobec1编辑偏好和模式。左图为脱氨酶的编辑效率和编辑窗口。右图的序列基序logo图反映脱氨酶的上下文偏好。
32.图26：(a)在水稻原生质体中使用正交r-loop分析方法评估脱靶效应。点表示各碱基编辑器在水稻6个靶点上的上靶c-to-t转换的平均频率(图20)和在两个ssdna(osdep1-sat1和osdep1-sat2)非sgrna依赖的脱靶c-to-t转换频率。(b)图26a中各碱基编辑器的上靶:脱靶(on-target:off-target)编辑比。(c)在hek293t细胞的两个上靶和三个脱靶位点上测试的sdd6、rapobec1-ye1、rapobec1-yee、rapobec1和hapobec3a的上靶:脱靶编辑比例。图中的点表示单个生物重复，柱高表示平均值，误差条表示三个独立的生物重复的标准差。
33.图27:sdd脱氨酶和apobec1在水稻原生质体中两个内源性靶点的具体的脱靶频率(图26a和26b)。脱靶使用正交r-loop法进行评估。(a、b)sdd脱氨酶和apobec1在水稻原生质体中osdep1-sat1(a)和osdep1-sat2(b)位点脱靶频率。数据是三个独立实验的结果。
34.图28：在hek293t细胞的两个上靶位点和四个脱靶位点上测试sdd6和apobec碱基编辑器上靶和脱靶具体编辑效率(图26c)。sdd6、apobec1-ye1、apobec1-yee、apobec1、apobec1和apobec3a分别在hshek2的上靶位点对应hsjak2-sa、hssirt6-sa脱靶位点上的上靶和脱靶效率，以及在hshek3的上靶位点对应hsrnf2-sa、hsfancf-sat1的脱靶位点的上靶和脱靶编辑效率。数据是三个独立实验的结果。
35.图29：alphafold2预测的高活性sdd脱氨酶的保守蛋白结构。给出了具有高脱氨活性的sdd脱氨酶的核心结构。对于某些有活性的脱氨酶，α4不是必需的结构。
36.图30：工程截短的sdd蛋白用于动物和植物。(a)工程截短的sdd蛋白。最上面的图是alphafold2预测的sdd6、sdd7、sdd3和sdd9的结构。保守区域用深色表示，截短区域用浅色表示。下面的图是，sdd及其最小化版本在两个内生水稻原生质体和hek293t细胞中的各两个内源位点的相对sdd原长度蛋白的编辑效率。(b)sacas9为基础的cbe载体理论上包装在单一的aav中。上图为，apobec/aid样脱氨酶、sdd最小化版本及其aav载体示意图。其中apobec3g、hapobec3b、rapobec1、pmcda1、apobec3a、haid脱氨酶对于使用单一aav包装来说尺寸太大。下图为基于sdd最小化mini版本的aav载体的示意图。(c)mini-sdd6在小鼠n2a细胞mmhpd基因两个内源性靶点上的编辑效率。(d)mini-sdd7，rapobec1,hapobeca和human aid碱基编辑器在大豆毛状根5个内源性靶点的编辑效率。(e)mini-sdd7在t0代大豆植株中诱导突变的频率。(f)碱基编辑的大豆植株的基因型。(g)卡芬曲酮乙基处理10天的大豆植株表型。左图为野生型大豆植株(r98)。右图为碱基编辑的大豆植株(c98)。对于图a、c和d，点表示单个生物重复，柱高和折线点表示平均值，误差条表示三个独立的生物实验的标准差
37.图31：再生稻中的碱基编辑效率。(a)农杆菌介导转化的水稻碱基编辑二元载体示意图。(b)mini-sdd7和hapobec3a碱基编辑器诱导t0水稻植株突变的效率。
38.图32：在大豆中进行农杆菌介导转化的的碱基编辑二元载体示意图。
39.发明详述
40.一、定义
41.在本发明中，除非另有说明，否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且，本文中所用的蛋白质和核酸化学、分子生物学、细胞和组织
培养、微生物学、免疫学相关术语和实验室操作步骤均为相应领域内广泛使用的术语和常规步骤。同时，为了更好地理解本发明，下面提供相关术语的定义和解释。
42.如本文所用，术语“和/或”涵盖由该术语连接的项目的所有组合，应视作各个组合已经单独地在本文列出。例如，“a和/或b”涵盖了“a”、“a和b”以及“b”。例如，“a、b和/或c”涵盖“a”、“b”、“c”、“a和b”、“a和c”、“b和c”以及“a和b和c”。
[0043]“胞嘧啶脱氨酶”指的是能够接受核酸例如单链dna作为底物并能够催化胞苷或脱氧胞苷分别脱氨化为尿嘧啶或脱氧尿嘧啶的脱氨酶。
[0044]“基因组”如本文所用不仅涵盖存在于细胞核中的染色体dna，而且还包括存在于细胞的亚细胞组分(如线粒体、质体)中的细胞器dna。
[0045]
如本文所用，“生物体”包括适于基因组编辑的任何生物体，优选真核生物。生物体的实例包括但不限于，哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物包括单子叶植物和双子叶植物，例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。
[0046]“经遗传修饰的生物体”或“经遗传修饰的细胞”意指在其基因组内包含外源多核苷酸或经修饰的基因或表达调控序列的生物体或细胞。例如外源多核苷酸能够稳定地整合进生物体或细胞的基因组中，并遗传连续的世代。外源多核苷酸可单独地或作为重组dna构建体的部分整合进基因组中。经修饰的基因或表达调控序列为在生物体或细胞基因组中所述序列包含单个或多个脱氧核苷酸取代、缺失和添加。
[0047]
针对序列而言的“外源”意指来自外来物种的序列，或者如果来自相同物种，则指通过蓄意的人为干预而从其天然形式发生了组成和/或基因座的显著改变的序列。
[0048]“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链rna或dna聚合物，任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代：“a”为腺苷或脱氧腺苷(分别对应rna或dna)，“c”表示胞苷或脱氧胞苷，“g”表示鸟苷或脱氧鸟苷，“u”表示尿苷，“t”表示脱氧胸苷，“r”表示嘌呤(a或g)，“y”表示嘧啶(c或t)，“k”表示g或t，“h”表示a或c或t，“i”表示肌苷，并且“n”表示任何核苷酸。
[0049]“多肽”、“肽”、和“蛋白质”在本发明中可互换使用，指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物，以及适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白质”还可包括修饰形式，包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和adp-核糖基化。
[0050]
序列“相同性”具有本领域公认的含义，并且可以利用公开的技术计算两个核酸或多肽分子或区域之间序列相同性的百分比。可以沿着多核苷酸或多肽的全长或者沿着该分子的区域测量序列相同性。(参见，例如：computational molecular biology,lesk,a.m.,ed.,oxford university press,new york,1988；biocomputing:informatics and genome projects,smith,d.w.,ed.,academic press,new york,1993；computer analysis of sequence data,part i,griffin,a.m.,and griffin,h.g.,eds.,humana press,new jersey,1994；sequence analysis in molecular biology,von heinje,g.,academic press,1987；and sequence analysis primer,gribskov,m.and devereux,j.,eds.,m stockton press,new york,1991)。虽然存在许多测量两个多核苷酸或多肽之间的相同性
的方法，但是术语“相同性”是技术人员公知的(carrillo,h.&lipman,d.,siam j applied math 48:1073(1988))。
[0051]“包含”一词在本文中用于描述蛋白质或核酸的序列时，所述蛋白质或核酸可以是由所述序列组成，或者在所述蛋白质或核酸的一端或两端可以具有额外的氨基酸或核苷酸，但仍然具有本发明所述的活性。此外，本领域技术人员清楚多肽n端由起始密码子编码的甲硫氨酸在某些实际情况下(例如在特定表达系统表达时)会被保留，但不实质影响多肽的功能。因此，本技术说明书和权利要求书中在描述具体的多肽氨基酸序列时，尽管其可能不包含n端由起始密码子编码的甲硫氨酸，然而此时也涵盖包含该甲硫氨酸的序列，相应地，其编码核苷酸序列也可以包含起始密码子；反之亦然。
[0052]
在肽或蛋白中，合适的保守型氨基酸取代是本领域技术人员已知的，并且一般可以进行而不改变所得分子的生物活性。通常，本领域技术人员认识到多肽的非必需区中的单个氨基酸取代基本上不改变生物活性(参见，例如，watson et al.,molecular biology of the gene,4th edition,1987,the benjamin/cummings pub.co.,p.224)。
[0053]
如本发明所用，“表达构建体”是指适于感兴趣的核苷酸序列在生物体中表达的载体如重组载体。“表达”指功能产物的产生。例如，核苷酸序列的表达可指核苷酸序列的转录(如转录生成mrna或功能rna)和/或rna翻译成前体或成熟蛋白质。
[0054]
本发明的“表达构建体”可以是线性的核酸片段、环状质粒、病毒载体，或者，在一些实施方式中，可以是能够翻译的rna(如mrna)。
[0055]
本发明的“表达构建体”可包含不同来源的调控序列和感兴趣的核苷酸序列，或相同来源但以不同于通常天然存在的方式排列的调控序列和感兴趣的核苷酸序列。
[0056]“调控序列”和“调控元件”可互换使用，指位于编码序列的上游(5'非编码序列)、中间或下游(3'非编码序列)，并且影响相关编码序列的转录、rna加工或稳定性或者翻译的核苷酸序列。调控序列可包括但不限于启动子、翻译前导序列、内含子和多腺苷酸化识别序列。
[0057]“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方案中，启动子是能够控制细胞中基因转录的启动子，无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。
[0058]“组成型启动子”指一般将引起基因在多数细胞类型中在多数情况下表达的启动子。“组织特异性启动子”和“组织优选启动子”可互换使用，并且指主要但非必须专一地在一种组织或器官中表达，而且也可在一种特定细胞或细胞型中表达的启动子。“发育调控启动子”指其活性由发育事件决定的启动子。“诱导型启动子”响应内源性或外源性刺激(环境、激素、化学信号等)而选择性表达可操纵连接的dna序列。
[0059]
启动子的实例包括但不限于聚合酶(pol)i、pol ii或pol iii启动子。pol i启动子的实例包括鸡rna pol i启动子。pol ii启动子的实例包括但不限于巨细胞病毒立即早期(cmv)启动子、劳斯肉瘤病毒长末端重复(rsv-ltr)启动子和猿猴病毒40(sv40)立即早期启动子。pol iii启动子的实例包括u6和h1启动子。可以使用诱导型启动子如金属硫蛋白启动子。启动子的其他实例包括t7噬菌体启动子、t3噬菌体启动子、β-半乳糖苷酶启动子和sp6噬菌体启动子。当用于植物时，启动子可以是花椰菜花叶病毒35s启动子、玉米ubi-1启动子、小麦u6启动子、水稻u3启动子、玉米u3启动子、水稻肌动蛋白启动子。
[0060]
如本文中所用，术语“可操作地连接”指调控元件(例如但不限于，启动子序列、转录终止序列等)与核酸序列(例如，编码序列或开放读码框)连接，使得核苷酸序列的转录被所述转录调控元件控制和调节。用于将调控元件区域可操作地连接于核酸分子的技术为本领域已知的。
[0061]
将核酸分子(例如质粒、线性核酸片段、rna等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞，使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。
[0062]“稳定转化”指将外源核苷酸序列导入基因组中，导致外源基因稳定遗传。一旦稳定转化，外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。
[0063]“瞬时转化”指将核酸分子或蛋白质导入细胞中，执行功能而没有外源基因稳定遗传。瞬时转化中，外源核酸序列不整合进基因组中。
[0064]
二、基于三维结构的蛋白聚类和功能预测方法
[0065]
在一方面，本发明提供一种蛋白质聚类方法，其中包括：
[0066]
(1)从数据库获得多个候选蛋白质的序列；
[0067]
(2)使用蛋白质预测程序预测所述多个候选蛋白质各自的三维结构；
[0068]
(3)使用打分函数对所述多个候选蛋白质的三维结构进行多重结构比对，由此获得结构相似度矩阵；
[0069]
(4)使用系统发育树构建方法基于所述结构相似度矩阵对所述多个候选蛋白质进行聚类。
[0070]
在一些实施方案中，其中步骤(1)中通过数据库中的注释信息获得所述多个候选蛋白质的序列。例如，如果对脱氨酶进行聚类，则可以在数据库中选取注释为“脱氨酶”的多个候选蛋白质的序列。
[0071]
在一些实施方案中，其中步骤(1)中通过用参比蛋白质的序列在数据库中基于序列相同性/相似性搜索获得所述多个候选蛋白质的序列。例如，可以基于已知功能的参比蛋白质的序列使用blast程序在数据库中搜索获得所述多个候选蛋白质的序列。在一些实施方案中，所述多个候选蛋白质与所述参比蛋白质的序列具有至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％的序列相同性。
[0072]
在一些实施方案中，其中所述候选蛋白质为脱氨酶。在一些优选实施方案中，所述候选蛋白质为胞嘧啶脱氨酶。
[0073]
在一些实施方案中，所述数据库是interpro数据库。
[0074]
在一些实施方案中，其中所述步骤(2)中的蛋白质结构预测程序选自alphafold2、rosett或其它可以对蛋白质结构预测的程序。(john jumper and others,
‘
highly accurate protein structure prediction with alphafold’,nature,596.7873(2021),583
–
89)
[0075]
在一些实施方案中，其中所述步骤(3)中使用的打分函数包括tm-score、rmsd、lddt、gdt score、qsc、fape或其它可以对蛋白质结构相似度打分的打分函数。(john jumper and others,
‘
highly accurate protein structure prediction with alphafold’,nature,596.7873(2021),583
–
89)
[0076]
在一些实施方案中，其中当打分函数为tm-score时，tm-score分值为至少0.6、至
少0.7、至少0.75、至少0.8、至少0.85或更高。tm-score的计算例如可参考本技术实施例“材料与方法”部分所描述的公式和方法。
[0077]
在一些实施方案中，其中所述步骤(4)中的系统发育树构建方法为除权配对法(unweighted pair group method with arithmetic mean,upgma)(c.p.kurtzman,jack w.fell,and t.boekhout,the yeasts:a taxonomic study,5th ed(amsterdam:elsevier,2011).；
‘
a statistical method for evaluating systematic relationships-robert reuven sokal,charles duncan michener-google图书’)。
[0078]
在一些实施方案中，其中步骤(4)获得所述多个候选蛋白质的聚类树状图。
[0079]
在一方面，本发明提供一种基于三维结构的蛋白质功能预测方法，所述方法包括根据本发明的蛋白质聚类方法对多个候选蛋白质进行聚类，然后根据聚类结果预测所述候选蛋白质功能。
[0080]
在一些实施方案中，所述多个候选蛋白质包括至少一个功能已知的参比蛋白质。
[0081]
在一些实施方案中，其中通过已知功能的参比蛋白质在聚类(树状图)中的位置，预测相同分支或亚支的其它候选蛋白质的功能。在一些实施方案中，预测与参比蛋白质位于相同分支或亚支的其他候选蛋白质为具有与所述参比蛋白质相同或相似的功能。在一些实施方案中，所述相同分支或亚支内的不同候选蛋白质之间的tm-score分值为至少0.6、至少0.7、至少0.75、至少0.8、至少0.85或更高。在一些实施方案中，所述不同分支或亚支的候选蛋白质之间的tm-score分值为小于0.85、小于0.8、小于0.75、小于0.7、小于0.6或更小。
[0082]
在一些实施方案中，其中所述参比蛋白质为脱氨酶。在一些优选实施方案中，所述参比蛋白质为胞嘧啶脱氨酶。在一些实施方案中，其中所述参比蛋白质为参比胞嘧啶脱氨酶，所述参比胞嘧啶脱氨酶为序列示于seq id no：64的rapobec1或序列示于seq no：65的ddda。在一些实施方案中，与参比蛋白质在相同分支或亚支内的不同候选蛋白质之间的tm-score分值或与参比蛋白质的tm-score分值为至少0.7。在一些实施方案中，与参比蛋白质在不同分支或亚支的候选蛋白质与参比蛋白质的tm-score分值小于0.7。
[0083]
在另一方面，本发明提供一种基于三维结构的鉴定蛋白质最小功能结构域的方法，其包括
[0084]
a)对通过本发明的方法聚类在一起，例如聚类于相同分支或亚支的多个候选蛋白质的结构进行比对，确定保守核心结构；
[0085]
b)鉴定所述保守核心结构为最小功能结构域。
[0086]
如本文所用，“最小功能结构域”是指能够基本上维持全长蛋白质功能的蛋白质最小部分。
[0087]
在一些实施方案中，所述多个候选蛋白质包括至少一个功能已知的参比蛋白质。
[0088]
在一些实施方案中，其中所述参比蛋白质为脱氨酶。在一些优选实施方案中，所述参比蛋白质为胞嘧啶脱氨酶。在一些实施方案中，其中所述参比蛋白质为参比胞嘧啶脱氨酶，所述参比胞嘧啶脱氨酶为序列示于seq id no：64的rapobec1或序列示于seq no：65的ddda。
[0089]
在另一方面，本发明提供了一种通过本发明的蛋白质功能预测方法鉴定的胞嘧啶脱氨酶。
[0090]
在另一方面，本发明提供了一种截短的胞嘧啶脱氨酶，其包含或由通过本发明的
方法鉴定的胞嘧啶脱氨酶最小功能结构域组成。
[0091]
在一方面，本发明还提供所述胞嘧啶脱氨酶或截短的胞嘧啶脱氨酶用于在生物体或生物体细胞中进行基因编辑例如碱基编辑中的用途。
[0092]
三、胞嘧啶脱氨酶和包含其的碱基编辑融合蛋白
[0093]
在一方面，本发明提供一种胞嘧啶脱氨酶，其中，所述胞嘧啶脱氨酶能够使dna中脱氧胞苷的胞嘧啶碱基脱氨基。在一些实施方案中，所述胞嘧啶脱氨酶来自细菌。
[0094]
在一些实施方案中，所述胞嘧啶脱氨酶与参比胞嘧啶脱氨酶的三维结构的alphafold2的tm-score评分不低于0.6、不低于0.7、不低于0.75、不低于0.8、不低于0.85，且包含与参比胞嘧啶脱氨酶的氨基酸序列具有20-70％、20-60％、20-50％、20-45％、20-40％、20-35％序列相同性或具有至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％序列相同性的氨基酸序列；该胞嘧啶脱氨酶具有对dna的脱氧胞苷的胞嘧啶碱基脱氨基的作用。
[0095]
在一些实施方案中，其中所述参比胞嘧啶脱氨酶为：
[0096]
(a)序列示于seq id no：64的rapobec1；或
[0097]
(b)序列示于seq id no：65的ddda；或
[0098]
(c)序列示于seq id no：4的sdd7。
[0099]
在一些实施方案中，其与序列示于seq id no：64的rapobec1的alphafold2三维结构的tm-score评分不低于0.6、不低于0.7、不低于0.75、不低于0.8、不低于0.85，且包含与seq id no：64具有20-70％、20-60％、20-50％、20-45％、20-40％、20-35％序列相同性或具有至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％序列相同性的氨基酸序列；该胞嘧啶脱氨酶具有对dna的脱氧胞苷的胞嘧啶碱基脱氨基的作用。
[0100]
在一些实施方案中，其与序列示于seq id no：65的ddda的alphafold2三维结构的tm-score评分不低于0.6、不低于0.7、不低于0.75、不低于0.8、不低于0.85，且包含与seq id no：65具有20-70％、20-60％、20-50％、20-45％、20-40％、20-35％序列相同性或具有至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％序列相同性的氨基酸序列；该胞嘧啶脱氨酶具有对dna的脱氧胞苷的胞嘧啶碱基脱氨基的作用。
[0101]
在一些实施方案中，其与序列示于seq id no：4的sdd7的alphafold2三维结构的tm-score评分不低于0.6、不低于0.7、不低于0.75、不低于0.8、不低于0.85，且包含与seq id no：4具有20-70％、20-60％、20-50％、20-45％、20-40％、20-35％序列相同性或具有至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％序列相同性的氨基酸序列；该胞嘧啶脱氨酶具有对dna的脱氧胞苷的胞嘧啶碱基脱氨基的作用。
[0102]
在一些实施方案中，其中所述胞嘧啶脱氨酶来自aid/apobec分支、scp1.201分支、
mafb19分支、novel aid/apobec-like分支、tm1506分支或xoo2897分支。
[0103]
在本文中，所述胞嘧啶脱氨酶分支根据iyer,l.m.,zhang,d.,rogozin,i.b.,&aravind,l.(2011).evolution of the deaminase fold and multiple origins of eukaryotic editing and mutagenic nucleic acid deaminases from bacterial toxin systems.nucleic acids research,39(22),9473-9497中所描述的内容确定。
[0104]
在一些实施方案中，其中所述胞嘧啶脱氨酶来自aid/apobec分支，包含与seq id no:1具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。
[0105]
在一些实施方案中，其中所述胞嘧啶脱氨酶来自scp1.201分支，包含与seq id no：28-40中任一项具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。在一些实施方案中，其中所述胞嘧啶脱氨酶能够对双链dna的胞嘧啶碱基进行脱氨基。在一些实施方案中，所述胞嘧啶脱氨酶的氨基酸序列由seq id no：28-40中的任一项的氨基酸序列组成。在一些实施方案中，所述胞嘧啶脱氨酶的氨基酸序列由seq id no：28、33、34、35中的任一项的氨基酸序列组成。
[0106]
在一些实施方案中，其中所述胞嘧啶脱氨酶来自scp1.201分支，包含与seq id no：2-18、41-49中任一项具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。在一些实施方案中，其中所述胞嘧啶脱氨酶能够对单链dna的胞嘧啶碱基进行脱氨基。在一些实施方案中，其中所述胞嘧啶脱氨酶的氨基酸序列由seq id no：2-18、41-49中的任一项的氨基酸序列组成。在一些实施方案中，其中所述胞嘧啶脱氨酶的氨基酸序列由seq id no：2-7、12、17中的任一项的氨基酸序列组成。
[0107]
在一些实施方案中，其中所述胞嘧啶脱氨酶为截短的胞嘧啶脱氨酶，所述截短的胞嘧啶脱氨酶能够使dna的脱氧胞苷的胞嘧啶碱基脱氨基。在一些实施方案中，其中所述截短的胞嘧啶脱氨酶的长度范围为130-160个氨基酸。在一些实施方案中，其中所述截短的胞嘧啶脱氨酶可被单独包装在aav颗粒中。
[0108]
在一些实施方案中，其中所述截短的胞嘧啶脱氨酶包含与seq id no：50-55中任一项具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。在一些实施方案中，其中所述截短的胞嘧啶脱氨酶能够对单链dna的胞嘧啶碱基进行脱氨基。在一些实施方案中，其中所述截短的胞嘧啶脱氨酶由seq id no：50-55的任一项的氨基酸序列组成。
[0109]
在一些实施方案中，其中所述胞嘧啶脱氨酶来自mafb19分支，包含与seq id no：19、56、57、58中任一项具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。
[0110]
在一些实施方案中，其中所述胞嘧啶脱氨酶来自novel aid/apobec-like分支，包
含与seq id no：20、21中任一项具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。
[0111]
在一些实施方案中，其中所述胞嘧啶脱氨酶来自tm1506分支，包含与seq id no：22具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。
[0112]
在一些实施方案中，其中所述胞嘧啶脱氨酶来自xoo2897分支，包含与seq id no：23、24、59-62具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。
[0113]
在一些实施方案中，其中所述胞嘧啶脱氨酶来自toxin deam分支，包含与seq id no：74或75具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。
[0114]
在一方面，本技术涉及本发明的胞嘧啶脱氨酶用于在生物体或生物体细胞中进行基因编辑例如碱基编辑中的用途。
[0115]
在一些实施方案中，所述胞嘧啶脱氨酶用于制备碱基编辑融合蛋白或碱基编辑系统，所述碱基编辑融合蛋白或碱基编辑系统用于在生物体或生物体细胞中进行碱基编辑。
[0116]
在另一方面，本发明提供一种碱基编辑融合蛋白，其包含核酸靶向结构域和胞嘧啶脱氨结构域，其中所述胞嘧啶脱氨结构域包含至少一个(例如一个或两个)本发明的胞嘧啶脱氨酶多肽。
[0117]
在本文实施方案中，“融合蛋白”、“碱基编辑融合蛋白”和“碱基编辑器”可互换使用，指的是可以以序列特异性方式介导基因组中靶序列的一或多个核苷酸取代的蛋白。所述一或多个核苷酸取代例如是c至t的取代。
[0118]
如本文所用，“核酸靶向结构域”指的是能够介导所述碱基编辑融合蛋白以序列特异性方式(例如通过向导rna)附着至基因组中特定靶序列处的结构域。在一些实施方案中，所述核酸靶向结构域可以包括针对特定靶序列的一或多个锌指蛋白结构域(zfp)或转录因子效应物结构域(tale)。在一些实施方案中，所述核酸靶向结构域包含至少一个(例如一个)crispr效应蛋白(crispr effector)多肽。
[0119]“锌指结蛋白结构域(zfp)”通常含有3-6个单独的锌指重复序列，每个锌指重复序列可以识别例如3bp的独特序列。通过组合不同的锌指重复序列，可以靶向不同的基因组序列。
[0120]
转录激活因子样效应物结构域”是转录激活因子样效应物(tale)的dna结合结构域。tale经工程化后可以结合几乎任何想要的dna序列。
[0121]
如本文所用，术语“crispr效应蛋白”通常指在天然存在的crispr系统中存在的核酸酶(crispr核酸酶)或其功能性变体。该术语涵盖基于crispr系统的能够在细胞内实现序列特异性靶向的任何效应蛋白。
[0122]
如本文所用，就crispr核酸酶而言的“功能性变体”意指其至少保留向导rna介导
的序列特异性靶向能力。优选地，所述功能性变体是核酸酶失活的变体，即其缺失双链核酸切割活性。然而，缺失双链核酸切割活性的crispr核酸酶也涵盖切口酶(nickase)，其在双链核酸分子形成切口(nick)，但不完全切断双链核酸。在本发明的一些优选的实施方案中，本发明所述crispr效应蛋白具有切口酶活性。在一些实施方案中，所述功能性变体相对于野生型核酸酶识别不同的pam(前间区序列邻近基序)序列。
[0123]“crispr效应蛋白”可以衍生自cas9核酸酶，包括cas9核酸酶或其功能性变体。所述cas9核酸酶可以是来自不同物种的cas9核酸酶，例如来自化脓链球菌(s.pyogenes)的spcas9或衍生自金黄色葡萄球菌(s.aureus)的sacas9。“cas9核酸酶”和“cas9”在本文中可互换使用，指的是包括cas9蛋白或其片段(例如包含cas9的活性dna切割结构域和/或cas9的grna结合结构域的蛋白)的rna指导的核酸酶。cas9是crispr/cas(成簇的规律间隔的短回文重复序列及其相关系统)基因组编辑系统的组分，能在向导rna的指导下靶向并切割dna靶序列形成dna双链断裂(dsb)。野生型spcas9的示例性氨基酸序列示于seq id no:25。
[0124]“crispr效应蛋白”还可以衍生自cpf1核酸酶，包括cpf1核酸酶或其功能性变体。所述cpf1核酸酶可以是来自不同物种的cpf1核酸酶，例如来自francisella novicida u112、acidaminococcus sp.bv3l6和lachnospiraceae bacterium nd2006的cpf1核酸酶。
[0125]
可用的“crispr效应蛋白”还可以衍生自cas3、cas8a、cas5、cas8b、cas8c、cas10d、cse1、cse2、csy1、csy2、csy3、gsu0054、cas10、csm2、cmr5、cas10、csx11、csx10、csf1、csn2、cas4、c2c1(cas12b)、c2c3、c2c2、cas12c、cas12d(即casy)、cas12e(即casx)、cas12f(即cas14)、cas12g、cas12h、cas12i、cas12j(即casφ)、cas12k、cas12l、cas12m等核酸酶，例如包括这些核酸酶或其功能性变体。
[0126]
在一些实施方案中，所述crispr效应蛋白是核酸酶失活的cas9。cas9核酸酶的dna切割结构域已知包含两个亚结构域：hnh核酸酶亚结构域和ruvc亚结构域。hnh亚结构域切割与grna互补的链，而ruvc亚结构域切割非互补的链。在这些亚结构域中的突变可以使cas9的核酸酶活性失活，形成“核酸酶失活的cas9”。所述核酸酶失活的cas9仍然保留grna指导的dna结合能力。
[0127]
本发明所述核酸酶失活的cas9可以衍生自不同物种的cas9，例如，衍生自化脓链球菌(s.pyogenes)cas9(spcas9)，或衍生自金黄色葡萄球菌(s.aureus)cas9(sacas9)。同时突变cas9的hnh核酸酶亚结构域和ruvc亚结构域(例如，包含突变d10a和h840a)使cas9的核酸酶失去活性，成为核酸酶死亡cas9(dcas9)。突变失活其中一个亚结构域可以使得cas9具有切口酶活性，即获得cas9切口酶(ncas9)，例如，仅具有突变d10a的ncas9。
[0128]
因此，在本发明各方面的一些实施方案中，本发明所述核酸酶失活的cas9变体相对于野生型cas9包含氨基酸取代d10a和/或h840a，其中氨基酸编号参照seq id no:25。在一些优选实施方式中，所述核酸酶失活的cas9相对于野生型cas9包含氨基酸取代d10a，其中氨基酸编号参照seq id no:25。在一些实施方式中，所述核酸酶失活的cas9包含seq id no:26所示的氨基酸序列(ncas9(d10a))。
[0129]
cas9核酸酶在用于基因编辑时，通常需要靶序列在3’端具有5
’‑
ngg-3’的pam(前间区序列邻近基序)序列。然而，本发明人令人惊奇地发现，这一pam序列在某些物种例如水稻中出现频率很低，极大地限制了在这些物种如水稻中的基因编辑。为此，本发明中优选使用识别不同的pam序列的crispr效应蛋白，例如具有不同的pam序列的cas9核酸酶功能性变
体。
[0130]
在本发明的一些实施方案中，融合蛋白中的胞苷脱氨结构域能够将融合蛋白-向导rna-dna复合物形成中产生的单链dna的胞苷脱氨转换成u，再通过碱基错配修复实现c至t的碱基替换。
[0131]
在本发明的一些实施方案中，所述核酸靶向结构域和所述胞嘧啶脱氨结构域通过接头融合。
[0132]
如本文所用，“接头”可以是长1-50个(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或20-25个、25-50个)或更多个氨基酸、无二级以上结构的非功能性氨基酸序列。例如，所述接头可以是柔性接头。
[0133]
在一些实施方案中，所述碱基编辑融合蛋白从n端至c端方向按以下顺序包含：胞嘧啶脱氨结构域和核酸靶向结构域。
[0134]
此外，在细胞中，尿嘧啶dna糖基化酶催化u从dna上的去除并启动碱基切除修复(ber)，导致将u:g修复成c:g。因此，不受任何理论限制，在本发明的碱基编辑融合蛋白与尿嘧啶dna糖基化酶抑制剂(ugi)组合将能够增加c至t碱基编辑的效率。
[0135]
在一些实施方式中，所述碱基编辑融合蛋白与尿嘧啶dna糖基化酶抑制剂(ugi)共表达。
[0136]
在一些实施方式中，所述碱基编辑融合蛋白还包含尿嘧啶dna糖基化酶抑制剂(ugi)。
[0137]
在一些实施方式中，ugi通过接头与所述碱基编辑融合蛋白其它部分连接。
[0138]
在一些实施方式中，ugi通过“自裂解肽”与所述碱基编辑融合蛋白其它部分连接。
[0139]
如本文所用“自裂解肽”意指可以在细胞内实现自剪切的肽。例如，所述自裂解肽可以包含蛋白酶识别位点，从而被细胞内的蛋白酶识别并特异性切割。或者，所述自裂解肽可以是2a多肽。2a多肽是一类来自病毒的短肽，其自切割发生在翻译期间。当用2a多肽连接两种不同目的多肽在同一读码框表达时，几乎以1:1的比例生成两种目的多肽。常用的2a多肽可以是来自猪捷申病毒(porcine techovirus-1)的p2a、来自明脉扁刺蛾β四体病毒(thosea asigna virus)的t2a、马甲型鼻病毒(equine rhinitis a virus)的e2a和来自口蹄疫病毒(foot-and-mouth disease virus)的f2a。本领域也已知多种这些2a多肽的功能性变体，这些变体也可以用于本发明。
[0140]
优选地，所述核酸靶向结构域、所述胞嘧啶脱氨结构域之间或内部不存在所述自裂解肽。在一些实施方式中，ugi位于所述碱基编辑融合蛋白的n末端或c末端，优选c末端。
[0141]
在一些具体实施方式中，所述尿嘧啶dna糖基化酶抑制剂(ugi)包含seq id no:27所示的氨基酸序列。
[0142]
在本发明的一些实施方案中，本发明的融合蛋白还可以包含核定位序列(nls)。一般而言，所述融合蛋白中的一个或多个nls应具有足够的强度，以便在细胞的核中驱动所述融合蛋白以可实现其碱基编辑功能的量积聚。一般而言，核定位活性的强度由所述融合蛋白中nls的数目、位置、所使用的一个或多个特定的nls、或这些因素的组合决定。
[0143]
在本发明的一些实施方案中，本发明的融合蛋白的nls可以位于n端和/或c端。在本发明的一些实施方案中，本发明的融合蛋白的nls可以位于所述腺嘌呤脱氨结构域、胞嘧啶脱氨结构域、核酸靶向结构域和/或ugi之间。在一些实施方案中，所述融合蛋白包含约1、
2、3、4、5、6、7、8、9、10个或更多个nls。在一些实施方案中，所述融合蛋白包含在或接近于n端的约1、2、3、4、5、6、7、8、9、10个或更多个nls。在一些实施方案中，所述融合蛋白包含在或接近于c端约1、2、3、4、5、6、7、8、9、10个或更多个nls。在一些实施方案中，所述多肽包含这些的组合，如包含在n端的一个或多个nls以及在c端的一个或多个nls。当存在多于一个nls时，每一个可以被选择为不依赖于其他nls。
[0144]
一般而言，nls由暴露于蛋白表面上的带正电的赖氨酸或精氨酸的一个或多个短序列组成，但其他类型的nls也是已知的。nls的非限制性实例包括：kkrkv、pkkkrkv或krpaatkkagqakkkk。
[0145]
此外，根据所需要编辑的dna位置，本发明的融合蛋白还可以包括其他的定位序列，例如细胞质定位序列、叶绿体定位序列、线粒体定位序列等。
[0146]
四、碱基编辑系统
[0147]
在另一方面，本发明提供一种碱基编辑系统，其包含：i)本发明的胞嘧啶脱氨酶或碱基编辑融合蛋白，和/或含有编码所述胞嘧啶脱氨酶或碱基编辑融合蛋白的核苷酸序列的表达构建体。
[0148]
在一些实施方案中，所述碱基编辑系统用于对核酸靶区域进行修饰。
[0149]
在一些实施方案中，所述碱基编辑系统还包含ii)至少一种向导rna和/或至少一种含有编码所述至少一种向导rna的核苷酸序列的表达构建体。然而，本领域技术人员将知晓，如果所述碱基编辑融合蛋白不是基于crispr效应蛋白，则所述系统可能无需向导rna或编码其的表达构建体。
[0150]
在一些实施方案中，其中所述至少一种向导rna可以与所述融合蛋白的核酸靶向结构域结合。在一些实施方案中，所述向导rna针对所述核酸靶区域内的至少一个靶序列。
[0151]
如本文所用，“碱基编辑系统”是指用于对核酸序列例如细胞或生物体内基因组序列进行碱基编辑所需的成分的组合。其中所述系统的各个成分，例如胞嘧啶脱氨酶、碱基编辑融合蛋白、一种或多种向导rna可以各自独立地存在，或者可以以任意的组合作为组合物的形式存在。
[0152]
在一些实施方案中，其包含本发明的胞嘧啶脱氨酶或本发明的融合蛋白和可以与核酸靶向结合蛋白结合的向导rna。
[0153]
如本文所用，“向导rna”和“grna”可互换使用，指的是能够与crispr效应蛋白形成复合物并由于与靶序列具有一定相同性而能够将所述复合物靶向靶序列的rna分子。向导rna通过与靶序列互补链之间的碱基配对而靶向所述靶序列。例如，cas9核酸酶或其功能性变体所采用的grna通常由部分互补形成复合物的crrna和tracrrna分子构成，其中crrna包含与靶序列具有足够相同性以便与该靶序列的互补链杂交并且指导crispr复合物(cas9+crrna+tracrrna)与该靶序列序列特异性地结合的引导序列(也称种子序列)。然而，本领域已知可以设计单向导rna(sgrna)，其同时包含crrna和tracrrna的特征。而cpf1核酸酶或其功能性变体所采用的grna通常仅由成熟crrna分子构成，其也可称为sgrna。基于所使用的crispr核酸酶和待编辑的靶序列设计合适的grna属于本领域技术人员的能力范围内。
[0154]
在一些实施方案中，其中所述向导rna的长度为15-100个核苷酸并且包含与靶序列互补的至少10个、至少15个或至少20个连续核苷酸的序列。
[0155]
在一些实施方案中，其中所述向导rna包含与靶序列互补的15至40个连续核苷酸
序列。
[0156]
在一些实施方案中，其中所述向导rna的长度为15-50个核苷酸。
[0157]
在一些实施方案中，其中所述靶序列是dna序列。
[0158]
在一些实施方案中，其中所述靶序列在生物体的基因组中。在一些实施方案中，其中所述生物体是原核生物。在一些实施方案中，其中所述原核生物是细菌。在一些实施方案中，其中所述生物体是真核生物。在一些实施方案中，其中所述生物体是植物或真菌。在一些实施方案中，其中所述生物体是脊椎动物。在一些实施方案中，其中所述脊椎动物是哺乳动物。在一些实施方案中，其中所述哺乳动物是小鼠、大鼠或人。在一些实施方案中，其中所述生物体是细胞。在一些实施方案中，其中所述细胞是小鼠细胞、大鼠细胞或人细胞。在一些实施方案中，其中所述细胞是hek-293细胞。
[0159]
在一些实施方案中，本发明的碱基编辑系统在导入所述细胞后，所述碱基编辑融合蛋白和所述向导rna能够形成复合物，并且该复合物在向导rna介导下特异性靶向靶序列，并导致靶序列中一或多个c被t取代和/或一或多个a被g取代。
[0160]
在一些实施方案中，所述至少一种向导rna可以针对位于基因组靶核酸区域内有义链(例如蛋白编码链)和/或反义链上的靶序列。当向导rna靶向有义链(例如蛋白编码链)时，本发明的碱基编辑组合物可以导致有义链(例如蛋白编码链)上靶序列内的一或多个c被t取代和/或一或多个a被g取代。当向导rna靶向反义链时，本发明的碱基编辑组合物可以导致有义链(例如蛋白编码链)上靶序列内的一或多个g被a取代和/或一或多个t被c取代。
[0161]
为了在细胞中获得有效表达，在本发明的一些实施方式中，编码所述胞嘧啶脱氨酶或碱基编辑融合蛋白的核苷酸序列针对其基因组待进行修饰的生物体进行密码子优化。
[0162]
密码子优化是指通过用在宿主细胞的基因中更频繁地或者最频繁地使用的密码子代替天然序列的至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50个或更多个密码子同时维持该天然氨基酸序列而修饰核酸序列以便增强在感兴趣宿主细胞中的表达的方法。不同的物种对于特定氨基酸的某些密码子展示出特定的偏好。密码子偏好性(在生物之间的密码子使用的差异)经常与信使rna(mrna)的翻译效率相关，而该翻译效率则被认为依赖于被翻译的密码子的性质和特定的转运rna(trna)分子的可用性。细胞内选定的trna的优势一般反映了最频繁用于肽合成的密码子。因此，可以将基因定制为基于密码子优化在给定生物中的最佳基因表达。密码子利用率表可以容易地获得，例如在www.kazusa.orjp/codon/上可获得的密码子使用数据库(“codon usage database”)中，并且这些表可以通过不同的方式调整适用。参见，nakamura y.等，“codon usage tabulated from the international dna sequence databases:status for the year2000.nucl.acids res.，28:292(2000)。
[0163]
可以通过本发明的碱基编辑系统进行基因组修饰的生物体包括适于碱基编辑的任何生物体，优选真核生物。生物体的实例包括但不限于，哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物，包括单子叶植物和双子叶植物，例如，所述植物是作物植物，包括但不限于小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯和马铃薯。
[0164]
五、碱基编辑方法
[0165]
在另一方面，本发明提供一种碱基编辑方法，其中包括将本发明的碱基编辑系统
与核酸分子靶序列接触。
[0166]
在一些实施方案中，所述核酸分子为dna分子。在一些优选实施方案中，所述核酸分子为双链dna分子或单链dna分子。
[0167]
在一些实施方案中，其中所述核酸分子靶序列包含与植物性状或表达相关的序列。
[0168]
在一些实施方案中，其中所述核酸分子靶序列包含与疾病或病症相关的序列或点突变。
[0169]
在一些实施方案中，其中所述碱基编辑系统与核酸分子靶序列接触发挥脱氨基作用，所述脱氨基作用导致靶序列的一个或多个核苷酸发生取代。
[0170]
在一些实施方案中，其中所述靶序列包含dna序列5
’‑
mcn-3’，其中m是a、t、c或g；n是a、t、c或g；其中在5
’‑
mcn-3’序列中间的c被脱氨基。
[0171]
在一些实施方案中，其中所述脱氨基作用导致剪接位点的引入或去除。
[0172]
在一些实施方案中，其中所述脱氨基作用导致基因启动子中突变的引入，所述突变导致与所述基因启动子可操作连接的基因的转录增加或减少。
[0173]
在一些实施方案中，其中所述脱氨基作用导致基因阻抑物中突变的引入，所述突变导致与所述基因阻抑物可操作连接的基因的转录增加或减少。
[0174]
在一些实施方案中，其中所述接触在生物体内进行。
[0175]
在一些实施方案中，其中所述接触在生物体外进行。
[0176]
六、产生经遗传修饰的细胞的方法
[0177]
在另一方面，本发明还提供一种产生至少一个经遗传修饰的细胞的方法，包括将本发明的碱基编辑系统导入至少一个所述细胞，由此导致所述至少一个细胞中靶核酸区域内的一个或多个核苷酸取代。在一些实施方案中，所述一个或多个核苷酸取代是c至t取代。
[0178]
在一些实施方案中，所述方法还包括从所述至少一个细胞筛选具有期望的一个或多个核苷酸取代的细胞的步骤。
[0179]
在一些实施方式中，本发明的方法在体外进行。例如，所述细胞是分离的细胞，或在分离的组织或器官中的细胞。
[0180]
在另一方面，本发明还提供经遗传修饰的生物体，其包含通过本发明的方法产生的经遗传修饰的细胞或其后代细胞。优选地，所述经遗传修饰的细胞或其后代细胞具有期望的一个或多个核苷酸取代。
[0181]
在本发明中，待进行修饰的靶核酸区域可以位于基因组的任何位置，例如位于功能基因如蛋白编码基因内，或者例如可以位于基因表达调控区如启动子区或增强子区，从而实现对所述基因功能修饰或对基因表达的修饰。在一些实施方案中，所述期望的核苷酸取代导致期望的基因功能修饰或基因表达修饰。
[0182]
在一些实施方案中，所述靶核酸区域与所述细胞或生物体的性状相关。在一些实施方案中，所述靶核酸区域中的突变导致所述细胞或生物体的性状的改变。在一些实施方案中，所述靶核酸区域位于蛋白的编码区。在一些实施方案中，所述靶核酸区域编码蛋白的功能相关基序或结构域。在一些优选实施方案中，所述靶核酸区域中的一个或多个核苷酸取代导致所述蛋白的氨基酸序列中的氨基酸取代。在一些实施方案中，所述一个或多个核苷酸取代导致蛋白的功能的改变。
[0183]
在本发明的方法中，所述碱基编辑系统可以通过本领域技术人员熟知的各种方法导入细胞。
[0184]
可用于将本发明的碱基编辑系统导入细胞的方法包括但不限于：磷酸钙转染、原生质融合、电穿孔、脂质体转染、微注射、病毒感染(如杆状病毒、痘苗病毒、腺病毒、腺相关病毒、慢病毒和其他病毒)、基因枪法、peg介导的原生质体转化、土壤农杆菌介导的转化。
[0185]
可以通过本发明的方法进行碱基编辑的细胞可以来自例如，哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物，包括单子叶植物和双子叶植物，优选作物植物，包括但不限于小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯和马铃薯。
[0186]
七、在植物中的应用
[0187]
本发明的碱基编辑融合蛋白、碱基编辑系统和产生经遗传修饰的细胞的方法特别适合用于对植物进行遗传学修饰。优选地，所述植物是作物植物，包括但不限于小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯和马铃薯。更优选地，所述植物是水稻。
[0188]
在另一方面，本发明提供了一种产生经遗传修饰的植物的方法，包括将本发明的碱基编辑系统导入至少一个所述植物，由此导致所述至少一个植物的基因组中靶核酸区域内的一个或多个核苷酸取代。
[0189]
在一些实施方案中，所述方法还包括从所述至少一个植物筛选具有期望的一个或多个核苷酸取代的植物。
[0190]
在本发明的方法中，所述碱基编辑组合物可以本领域技术人员熟知的各种方法导入植物。可用于将本发明的碱基编辑系统导入植物的方法包括但不限于：基因枪法、peg介导的原生质体转化、土壤农杆菌介导的转化、植物病毒介导的转化、花粉管通道法和子房注射法。优选地，通过瞬时转化将所述碱基编辑组合物导入植物。
[0191]
在本发明的方法中，只需在植物细胞中导入或产生所述碱基编辑融合蛋白和向导rna即可实现对靶序列的修饰，并且所述修饰可以稳定遗传，无需将编码所述碱基编辑系统的组分的外源多核苷酸稳定转化植物。这样避免了稳定存在的(持续产生的)碱基编辑组合物的潜在脱靶作用，也避免外源核苷酸序列在植物基因组中的整合，从而具有更高生物安全性。
[0192]
在一些优选实施方式中，所述导入在不存在选择压力下进行，从而避免外源核苷酸序列在植物基因组中的整合。
[0193]
在一些实施方式中，所述导入包括将本发明的碱基编辑系统转化至分离的植物细胞或组织，然后使所述经转化的植物细胞或组织再生为完整植物。优选地，在不存在选择压力下进行所述再生，也即是，在组织培养过程中不使用任何针对表达载体上携带的选择基因的选择剂。不使用选择剂可以提高植物的再生效率，获得不含外源核苷酸序列的经修饰的植物。
[0194]
在另一些实施方式中，可以将本发明的碱基编辑系统转化至完整植物上的特定部位，例如叶片、茎尖、花粉管、幼穗或下胚轴。这特别适合于难以进行组织培养再生的植物的转化。
[0195]
在本发明的一些实施方式中，直接将体外表达的蛋白质和/或体外转录的rna分子
(例如，所述表达构建体是体外转录的rna分子)转化至所述植物。所述蛋白质和/或rna分子能够在植物细胞中实现碱基编辑，随后被细胞降解，避免了外源核苷酸序列在植物基因组中的整合。
[0196]
因此，在一些实施方式中，使用本发明的方法对植物进行遗传修饰和育种可以获得其基因组无外源多核苷酸整合的植物，即非转基因(transgene-free)的经修饰的植物。
[0197]
在本发明的一些实施方式中，其中所述被修饰的靶核酸区域与植物性状如农艺性状相关，由此所述一个或多个核苷酸取代导致所述植物相对于野生型植物具有改变的(优选改善的)性状，例如农艺性状。
[0198]
在一些实施方式中，所述方法还包括筛选具有期望的一个或多个核苷酸取代和/或期望的性状如农艺性状的植物的步骤。
[0199]
在本发明的一些实施方式中，所述方法还包括获得所述经遗传修饰的植物的后代。优选地，所述经遗传修饰的植物或其后代具有期望的一个或多个核苷酸取代和/或期望的性状如农艺性状。
[0200]
在另一方面，本发明还提供了经遗传修饰的植物或其后代或其部分，其中所述植物通过本发明上述的方法获得。在一些实施方式中，所述经遗传修饰的植物或其后代或其部分是非转基因的。优选地，所述经遗传修饰的植物或其后代具有期望的遗传修饰和/或期望的性状如农艺性状。
[0201]
在另一方面，本发明还提供了一种植物育种方法，包括将通过本发明上述的方法获得的在靶核酸区域包含一个或多个核苷酸取代的经遗传修饰的第一植物与不含有所述一个或多个核苷酸取代的第二植物杂交，从而将所述一个或多个核苷酸取代导入第二植物。优选地，所述经遗传修饰的第一植物具有期望的性状如农艺性状。
[0202]
八、治疗应用
[0203]
本发明还涵盖本发明的碱基编辑系统在疾病治疗中的应用。
[0204]
通过本发明的碱基编辑系统对疾病相关基因进行修饰，可以实现疾病相关基因的上调、下调、失活、激活或者突变纠正等，从而实现疾病的预防和/或治疗。例如，本发明中所述靶核酸区域可以位于疾病相关基因的蛋白编码区内，或者例如可以位于基因表达调控区如启动子区或增强子区，从而可以实现对所述疾病相关基因功能修饰或对疾病相关基因表达的修饰。因此，本文所述修饰疾病相关基因包括对疾病相关基因本身(例如蛋白编码区)的修饰，也包含对其表达调控区域(如启动子、增强子、内含子等)的修饰。
[0205]“疾病相关”基因是指与非疾病对照的组织或细胞相比，在来源于疾病影响的组织的细胞中以异常水平或以异常形式产生转录或翻译产物的任何基因。在改变的表达与疾病的出现和/或进展相关的情况下，它可以是以异常高的水平被表达的基因；它可以是以异常低的水平被表达的基因。疾病相关基因还指具有一个或多个突变或直接负责或与一个或多个负责疾病的病因学的基因连锁不平衡的遗传变异的基因。所述突变或遗传变异例如是单核苷酸变异(snv)。转录的或翻译的产物可以是已知的或未知的，并且可以处于正常或异常水平。
[0206]
因此，本发明还提供治疗有需要的对象中的疾病的方法，包括向所述对象递送有效量的本发明的碱基编辑系统以修饰与所述疾病相关的基因(例如，通过融合蛋白或多个融合蛋白对线粒体dna进行脱氨)。本发明还提供碱基编辑系统在制备用于治疗有需要的对
象中的疾病的药物组合物中的用途，其中所述碱基编辑系统用于修饰与所述疾病相关的基因。本发明还提供用于治疗有需要的对象中的疾病的药物组合物，其包含本发明的碱基编辑系统，以及任选的药学可接受的载体，其中所述碱基编辑系统用于修饰与所述疾病相关的基因。
[0207]
在一些实施方案中，本发明描述的融合蛋白或碱基编辑系统用于通过使靶核碱基(例如c残基)脱氨基而将点突变引入到核酸中。在一些实施方案中，靶核碱基的脱氨基作用导致遗传缺陷的校正，例如在校正导致基因产物中功能丧失的点突变中。在一些实施方案中，遗传缺陷与疾病或病症(例如溶酶体贮积病或代谢性疾病，诸如例如i型糖尿病)相关。在一些实施方案中，本文提供的方法可用于将失活性点突变引入到编码与疾病或病症相关的基因产物的基因或等位基因中。
[0208]
在一些实施方案中，本发明描述的方案的目的是经由基因组编辑恢复功能失调基因的功能。本文提供的核碱基编辑蛋白以用于人类细胞体外基因编辑，如矫正人细胞培养物中疾病相关的突变。本文中所提供的核碱基编辑蛋白，例如含有核酸可编辑dna蛋白(例如crispr效应蛋白cas9)和胞嘧啶脱氨酶域的融合蛋白可以用于校正任何单点t至c或a至g突变。在第一种情况下，突变体的c通过脱氨基作用校正突变，而在后一种情况下，与突变体a配对的c通过脱氨基作用和后续一轮的复制校正突变。
[0209]
在一些实施方案中，本发明描述的方案的目的是用于治疗患有与点突变相关或由点突变引起的疾病，所述点突变可以通过本文提供的dna碱基编辑融合蛋白进行校正。在一些实施方案中，疾病是增殖性疾病。在一些实施方案中，疾病是遗传疾病。在一些实施方案中，疾病是新生性疾病。在一些实施方案中，疾病是代谢性疾病。在一些实施方案中，疾病是溶酶体贮积病。
[0210]
在一些实施方案中，本发明描述的方案的目的是可用于治疗线粒体疾病或紊乱。如本文所使用的，“线粒体疾病”涉及由异常线粒体引起的疾病，例如线粒体基因突变、酶途径等。疾病的例子包括但不限于：神经疾病、运动控制丧失、肌肉无力和疼痛、胃肠疾病和吞咽困难、生长不良、心脏病、肝病、糖尿病、呼吸并发症、癫痫、视觉/听力问题、乳酸酸中毒、发育迟缓和易受感染。
[0211]
本发明中所述疾病的示例包括但不限于遗传性疾病，循环系统疾病，肌肉疾病，大脑、中枢神经和免疫系统疾病，阿尔茨海默病，分泌酶病症，肌萎缩性侧索硬化(als)，孤独症，三核苷酸重复序列扩增病症，听力疾病，非分裂细胞(神经元、肌肉)的基因靶向治疗，肝脏和肾脏疾病，上皮细胞和肺部疾病，癌症，乌谢尔综合征或色素性视网膜炎-39，囊性纤维化，hiv和aids，β地中海贫血，镰状细胞疾病，单纯性疱疹病毒，自闭症，药物成瘾，年龄相关性黄斑变性，精神分裂症。通过校正点突变或将失活性突变引入到疾病相关基因中来治疗的其他疾病对于本领域技术人员来说是已知的，因此本公开内容在这方面不受限制。除本发明示例性描述的疾病外，也可以用本发明提供的策略和融合蛋白治疗其他的相关疾病，该应用对本领域技术人员是显而易见的。本发明可应用的疾病或靶点参考wo2015089465a1(pct/us2014/070135)、wo2016205711a1(pct/us2016/038181)、wo2018141835a1(pct/ep2018/052491)、wo2020191234a1(pct/us2020/023713)、wo2020191233a1(pct/us2020/023712)、wo2019079347a1(pct/us2018/056146)、wo2021155065a1(pct/us2021/015580)中所列明的碱基编辑系统适用的相关疾病。
[0212]
本发明的碱基编辑系统或药物组合物的施用可针对患者或受试者的体重和物种进行调整。施用频率在医学或兽医学允许的范围之内。其取决于包括患者或受试者的年龄、性别、一般健康状况、其他状况以及着手解决的特定病状或症状在内的常规因素。
[0213]
九、腺相关病毒(aav)
[0214]
本发明提供的碱基编辑融合蛋白和/或含有编码所述碱基编辑融合蛋白的核苷酸序列的表达构建体，或包含本发明的碱基编辑系统一个或多个grna可以使用腺伴随病毒(aav)、慢病毒、腺病毒或其他质粒或病毒载体类型进行递送。由于aav具有4.5-4.75kb的包装限制。这表明以及启动子和转录终止子必须都配合在同一个病毒载体中。大于4.5-4.75kb的构建体将导致病毒递送效率的显著降低。胞嘧啶脱氨酶的尺寸较大，使其难于包装到aav中。因此本发明的实施方案中提供了利用截短的胞嘧啶脱氨酶包装入aav中以实现碱基编辑。
[0215]
十、核酸、细胞和组合物
[0216]
在另一方面，本发明提供一种核酸分子，其编码本发明的胞嘧啶脱氨酶，或本发明的融合蛋白。
[0217]
在另一方面，本发明提供一种细胞，其包含本发明的胞嘧啶脱氨酶，或本发明的融合蛋白，或本发明的碱基编辑系统，或本发明的核酸分子。
[0218]
在另一方面，本发明提供一种组合物，其包含本发明的胞嘧啶脱氨酶，或本发明的融合蛋白，或本发明的碱基编辑系统，或本发明的核酸分子。
[0219]
在一些实施方案中，其中所述胞嘧啶脱氨酶、融合蛋白、碱基编辑系统或核酸分子被包装进病毒、病毒样颗粒、病毒体、脂质体、囊泡、外来体、脂质体纳米颗粒(lnp)。
[0220]
在一些实施方案中其中所述病毒为腺相关病毒(aav)或重组腺相关病毒(raav)。
[0221]
十一、试剂盒
[0222]
本发明还包括用于本发明的方法的试剂盒，该试剂盒包括本发明的碱基编辑融合蛋白和/或含有编码所述碱基编辑融合蛋白的核苷酸序列的表达构建体，或包含本发明的碱基编辑系统。试剂盒一般包括表明试剂盒内容物的预期用途和/或使用方法的标签。术语标签包括在试剂盒上或与试剂盒一起提供的或以其他方式随试剂盒提供的任何书面的或记录的材料。本发明所述试剂盒还可以包含用于构建本发明的碱基编辑系统中的表达载体的合适的材料。本发明所述试剂盒还可以包含适于将本发明的碱基编辑融合蛋白或碱基编辑组合物转化进细胞的试剂。
[0223]
在一方面，本发明提供一种含有核酸构建体的试剂盒，其中所述核酸构建体包含：
[0224]
(a)编码本发明的胞嘧啶脱氨酶的核酸序列；和
[0225]
(b)驱动(a)的序列的表达的异源启动子。
[0226]
在一方面，本发明提供一种含有核酸构建体的试剂盒，其中所述核酸构建体包含：
[0227]
(a)编码本发明的融合蛋白的核酸序列；和
[0228]
(b)驱动(a)的序列的表达的异源启动子。
[0229]
在一些实施方案中，其中进一步含有编码向导rna骨架的表达构建体，其中所述构建体包含克隆位点，所述克隆位点允许将与靶序列相同或互补的核酸序列克隆到所述向导rna骨架中。
实施例
[0230]
为了便于理解本发明，下面将参照相关具体实施例及附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
[0231]
材料与方法
[0232]
1、载体构建
[0233]
鉴定到的新的脱氨酶的序列由南京金斯瑞公司进行水稻和小麦双密码子优化，构建至pjit63-ncas9-pbe骨架(addgene号#98164)。实施例中使用到的报告系统的质粒由本实验室前期构建完成。
[0234]
对于sgrna，使用posu3载体(addgene号#170132)进行表达。
[0235]
2、原生质体分离和转化
[0236]
本发明中使用的原生质体来自于水稻中花11品种。
[0237]
2.1水稻苗培养
[0238]
水稻种子先用75％乙醇漂洗1分钟，再用4％次氯酸钠处理30分钟，无菌水洗涤5次以上。放在m6培养基上培养3-4周，26℃，避光处理。
[0239]
2.2原生质体分离
[0240]
(1)剪下水稻茎秆，用刀片将其中间部分切成0.5-1mm的丝，放入0.6m的mannitol溶液中避光处理10min，再用滤网过滤，将其放入50ml酶解液(0.45μm滤膜过滤)中，抽真空(压强约15kpa)30min，取出后放置于摇床(10rpm)上室温酶解5h；
[0241]
(2)加30-50ml w5稀释酶解产物，用75μm尼龙滤膜过滤酶解液于圆底离心管中(50ml)；
[0242]
(3)23℃，250g(rcf)，升3降3，离心3min，弃上清；
[0243]
(4)用20ml w5轻轻悬起细胞，重复步骤(3)
[0244]
(5)加适量mmg悬浮，待转化。
[0245]
2.3水稻原生质体转化
[0246]
(1)分别加所需转化载体各10μg于2ml离心管，混匀后，用去尖的枪头吸取200μl原生质体，轻弹混匀，加入220μl peg4000溶液，轻弹混匀，室温避光诱导转化20-30min；
[0247]
(2)加880μl w5轻轻颠倒混匀，250g(rcf)，升3降3，离心3min，弃上清；
[0248]
(3)加1ml wi溶液，轻轻颠倒混匀，轻轻转至转移到流式管中，室温暗处培养48小时。
[0249]
3、流式细胞仪观察细胞荧光情况
[0250]
使用facsaria iii(bd biosciences)仪器流式分析原生质体gfp阴性和阳性群体。
[0251]
4、原生质体及植物dna提取与扩增子测序分析
[0252]
收集原生质体于2ml离心管中，利用ctab法提取原生质体dna(～30μl)，并利用nanodrop超微量分光光度计测定其浓度(30-60ng/μl)，-20℃保存。
[0253]
利用特异性针对靶位点的基因组引物对原生质体dna模板进行pcr扩增。20μl扩增体系包含4μl 5
×
fastpfu buffer，1.6μl dntps(2.5mm)，0.4μl forward primer(10μm)，
0.4μl reverse primer(10μm)，0.4μl fastpfu polymerase(2.5u/μl)，以及2μl dna template(～60ng)。扩增条件：95℃预变性5min；95℃变性30s，50-64℃退火30s，72℃延伸30s，35个循环；72℃充分延伸5min，12℃保存。
[0254]
上述扩增产物稀释10倍，取1μl作为第二轮pcr扩增模板，扩增引物为含有barcode的测序引物。50μl扩增体系包含10μl 5
×
fastpfu buffer，4μl dntps(2.5mm)，1μl forward primer(10μm)，1μl reverse primer(10μm)，1μl fastpfu polymerase(2.5u/μl)，以及1μl dna template。扩增条件如上，扩增循环数为35个循环。
[0255]
pcr产物于2％琼脂糖凝胶电泳分离，并利用axyprep dna gel extraction kit对目的片段进行胶回收，回收产物利用nanodrop超微量分光光度计进行定量分析；分别取100ng回收产物进行混合，并送诺禾致源公司进行扩增子测序文库构建及扩增子测序分析。
[0256]
5、人、动物细胞转染
[0257]
人hek293t细胞(atcc,crl-3216)和小鼠n2a细胞(atcc,ccl131)使用添加有10％(vol/vol)胎牛血清(fbs,gibco)和1％(vol/vol)青霉素-链霉素(gibco)的dulbecco's modified eagle's培养基(dmem,gibco)，在37℃、5％ co2加湿培养箱中培养。用支原体检测试剂盒(transgen biotech)对所有细胞进行支原体污染常规检测。在没有抗生素的情况下，将细胞接种到48孔poly-d-lysinecoated板(corning)中。16-24小时后，细胞用1ul lipofectamine 2000(thermofisher scientific)、300ng脱氨酶载体和100ng sgrna表达载体孵育。在进行胞嘧啶碱基编辑系统转染时，细胞用1ul lipofectamine2000、300ng tale-l和300ng tale-r孵育。72小时后用pbs清洗细胞，然后提取dna。为使用r-loop法检测脱靶效应，需要将名为be4max载体、sacas9be4max载体和相应的sgrna载体共转染细胞(koblan,l.w.,doman,j.l.,wilson,c.,levy,j.m.,tay,t.,newby,g.a.,maianti,j.p.,raguram,a.,&liu,d.r.(2018).improving cytidine and adenine base editors by expression optimization and ancestral reconstruction.nat.biotechnol.,36,843
–
846.)。
[0258]
6、trapseq文库
[0259]
我们使用sgrna 12k-trapseq文库来评价脱氨酶碱基编辑系统的性能。我们在病毒转导前20小时将2
×
106个细胞接种到100mm培养皿中。我们转导了500μl sgrna慢病毒。对于稳定整合的细胞，我们使用1μg/ml的嘌呤霉素(gibco)进行筛选。对于每个碱基编辑器，我们在转染前24小时将2x106细胞接种到6个培养皿中。我们用60μl lipofectamine 2000转染每个cbe成员质粒dna 15ug和15μg tol2 dna。转染24小时后，我们换成含有10ug/ml blasticidin(gibco)的新培养基。3天后，我们对细胞进行清洗、重悬、接种到10ug/ml浓度的杀稻瘟菌素培养基中。6天后，我们用pbs清洗收集所有细胞，然后离心并使用cell/tissue dna isolation mini kit(vazyme)提取dna。对于每种脱氨酶碱基编辑器样本，我们通过二代测序对序列进行鉴定。
[0260]
7、dna提取
[0261]
对于hek293t细胞和n2a细胞，其基因组dna是通过lysis buffer和proteinase k处理和triumfi小鼠组织直接扩增试剂盒(北京金沙生物)处理进行提取。
[0262]
对于植物原生质体，其基因组dna是通过培养72小时后，用植物基因组dna试剂盒(天根生化科技)提取基因组dna。所有dna样品用nanodrop 2000分光光度计(赛默飞)定量。
[0263]
8、蛋白质结构分析、聚类
[0264]
利用alphafold v2.2.0进行蛋白结构解析(john jumper and others,
‘
highly accurate protein structure prediction with alphafold’,nature,596.7873(2021),583
–
89)。
[0265]
对解析结果使用tm-align软件，对tm-score进行计算。tm-score的具体计算公式如下(参考文献：zhang,yang,and jeffrey skolnick.(2004).scoring function for automated assessment of protein structure template quality.proteins 57(4),702-710.)
[0266]
其中ln是目标蛋白氨基酸序列长度，lt是同时出现在模板和目标结构中氨基酸
[0267][0268]
序列的长度，di是模板和目标结构中第i对残基之间的距离，d0是标准化匹配差的尺度。“max”表示最优空间叠加后的最大值。
[0269]
对tm-score进行转换后，采用r语言中的ape，phangorn包，使用upgma方法进行聚类计算(c.p.kurtzman,jack w.fell,and t.boekhout,the yeasts:a taxonomic study,5th ed(amsterdam:elsevier,2011).；
‘
a statistical method for evaluating systematic relationships-robert reuven sokal,charles duncan michener-google图书’)；首先使用如下公式获得任意两两之间的距离。
[0270][0271]
其中d
(abx)
示为其中两点的距离。
[0272]
然后再聚类过程中使用,用于计算平均距离的公式如下。如果c1，c2是包含集合n1和n2分别将合并到新的集合c中的终端分类群，则到任何其他聚类d的平均距离由下式算出：
[0273][0274]
实施例1、鉴定apobec/aid分支中的可用于碱基编辑的新型脱氨酶
[0275]
为了寻找不同于现有碱基编辑系统所使用的脱氨酶的新型脱氨酶，首先在iyer等的工作中所列举的代表性脱氨酶列表中测试了apobec/aid分支中与现有脱氨酶序列相似性低的脱氨酶(iyer,l.m.,zhang,d.,rogozin,i.b.,&aravind,l.(2011).evolution of the deaminase fold and multiple origins of eukaryotic editing and mutagenic nucleic acid deaminases from bacterial toxin systems.nucleic acids research,39(22),9473-9497.)。其中，no.182脱氨酶(seq id no:1)与现有脱氨酶的相似性很低，其氨基酸序列与最为相似的小鼠rapobec1也仅有34％的序列相同性。182号脱氨酶构建至pjit163-ncas9-pbe骨架上，即用182号脱氨酶代替rapobec1与ncas9融合。通过报告系统的评估，发现182-pbe可以在细胞中发生碱基编辑(图1、图6和图7)。
[0276]
为了进一步确认其编辑能力，将182-pbe构建体与靶向内源的sgrna构建体共同转
化至水稻原生质体。通过对6个内源位点的编辑结果分析发现，182-pbe可以有效地实现碱基编辑，且其编辑窗口显著大于常用的基于rapobec1的胞嘧啶碱基编辑系统(图2、图6和图7)。因此，182号蛋白具有对单链dna进行胞嘧啶脱氨的功能，基于该蛋白可建立新型胞嘧啶碱基编辑系统。
[0277]
实施例2、不同分支中的脱氨酶的胞嘧啶脱氨活性的检测
[0278]
iyer等通过在数据库中寻找与已知脱氨酶的折叠方式类似的蛋白，并将以上蛋白根据结构域的不同划分成至少21个分支(clade)(表1)。目前被广泛用于碱基编辑的胞嘧啶脱氨酶apobec1、apobec3、aid、cda1均被划分为类apobec/aid分支中。除了以上分支外，还有被证明功能的分支例如可将dcmp转变为dump的“dcmp
[0279]
deaminase and come”分支，可将鸟嘌呤(g)转变为黄嘌呤(i)的“guanine
[0280]
deaminase”分支，具有二氨基羟基磷酸核糖酰氨基嘧啶脱氨酶功能的“ribd-like”分支，具有使rna腺嘌呤(a)转变黄嘌呤(i)的rna编辑酶功能的“tad1/adar”分支，具有甲酰基转移酶活性的“purh/aicar transformylase”分支等。此外，还有一些分支的脱氨功能尚未明确，例如基于蛋白结构域命名的、来源于细菌的scp1.201分支、xoo2897分支、mafb19分支、pput_2613分支等。
[0281]
表1.脱氨酶分类家族(iyer等，2011)
[0282][0283]
为了检测以上分支是否具有胞嘧啶脱氨酶的活性，挑选了iyer等中所列举的代表性脱氨酶列表除了apobec/aid分支外的一共48个脱氨酶蛋白，分布在14个分支中：bd3614、cdd/cda-like、dyw-like、fdhd、mafb19、novel aid/apobec-like、ott1508、purh/aicar transformylase、ribd-like、tm1506、scp1.201、imm1immunity protein associated with scp1.201 deaminases、ywqj和xoo2897。将所有的蛋白构建至pjit163-ncas9-pbe骨架上，通过bfp变gfp报告系统(zong,y.等.nat.biotechnol.35,438-440(2017))评估其结合单链dna进行脱氨的活性。发现其中有5个分支共23种蛋白具有胞嘧啶脱氨酶的活性，分别来自于novel aid/apobec-like分支(no.2-1479和no.2-1478)以及来源于细菌的scp1.201分支(no.69、no.55、no.57、no.64、no.76、no.2-1146、no.2-1160、no.54、no.56、no.59、no.60、no.61、no.72、no.74、no.75、no.63、no.2-1158)、xoo2897分支(no.2-1429、no.2-1442)、tm1506分支(no.2-39)和mafb19分支(no.101m)。特别是对于scp1.201分支，在测试的19种蛋白中有18种检测出胞嘧啶脱氨酶活性。通过水稻两个内源位点的测试，可以将上述共计
23种具有胞嘧啶脱氨酶活性的蛋白划分为8个高效(图4和图5)、8个中等(图6和图7)和7个低编辑效率的脱氨酶。
[0284]
为了进一步确认新找到的脱氨酶的编辑能力，在可以使报告系统发光的组别中挑选no.69的候选脱氨酶进行测试，该蛋白属于scp1.201分支。为了进一步确认其编辑能力，将69-pbe构建体与靶向内源的sgrna构建体共同转化至水稻原生质体。通过对6个内源位点的编辑结果分析发现，69-pbe可以有效地实现碱基编辑，且其编辑效率显著大于常用的基于rapobec1的胞嘧啶碱基编辑系统(图3)。因此，新鉴定到的蛋白可以具有对单链dna进行胞嘧啶脱氨的功能，基于这些蛋白可建立新型胞嘧啶碱基编辑系统。
[0285]
实施例3、通过蛋白质结构分析、聚类和发现新型胞嘧啶脱氨酶
[0286]
根据以上实施例，需提出有效的蛋白酶功能鉴定和筛选方式，以期高效的对蛋白质功能进行分析。基于蛋白质的三维结构对其功能的决定作用，因此对已知或预测的蛋白质结构进行对比分析和分类聚类可能是一种将脱氨酶分类为功能分支的有效方法。因此，我们结合ai辅助蛋白质结构预测、结构校准和聚类来生成脱氨酶之间的新的蛋白质分类关系(图8)。
[0287]
我们从interpro数据库中选择238个注解为含有脱氨酶结构域的蛋白序列和4个来自jab-结构域家族的远外群候选蛋白序列(图9)。具体的，我们从16个脱氨酶家族中各选择了15个长度至少为100个氨基酸的候选基因，并使用alphafold2预测它们的蛋白质结构。我们使用标准化打分模型tm-score评分对所有候选蛋白进行了多序列结构比对(multiple structural alignments，msa)，tm-score的具体计算公式如下(参考文献：zhang,yang,and jeffrey skolnick.(2004).scoring function for automated assessment of protein structure template quality.proteins 57(4),702-710.)
[0288][0289]
其中ln是目标蛋白氨基酸序列长度，l
t
是同时出现在模板和目标结构中氨基酸序列的长度，di是模板和目标结构中第i对残基之间的距离，d0是标准化匹配差的尺度。“max”表示最优空间叠加后的最大值。
[0290]
基于msa结果，我们生成了结构相似矩阵，反映了蛋白质之间的整体结构相关性。然后，我们使用除权配对算法(upgma)将这些相似矩阵组织成一个基于结构的树状图(图10)。树状图将238个蛋白质聚成20个独特的结构支，每个支中的脱氨酶具有不同的保守蛋白质结构域(图11a和11b)。我们发现，即使不使用上下文信息，如保守的基因邻域和结构域架构，也可以基于蛋白质结构对其生成准确的蛋白质聚类分类。当使用基于结构的层次聚类时，不同的分支反映了独特的结构，意味着其具有不同的催化功能和性质(图11a和11b)。有趣的是，我们还发现这种基于结构的聚类方法在功能相似性排序方面比传统的一维氨基酸序列聚类方法更有效。例如，在基于氨基酸序列的聚类方法中，参与嘌呤代谢的腺嘌呤脱氨酶(a_deamin,interpro数据库中的pfo2137)被分成了不同的分支，而在基于结构的聚类方法中，它们则被归为一个脱氨酶分支。
[0291]
此外，我们利用基于结构的聚类方法，将4个脱氨酶家族(dcmp、mafb19、
lmjf365940和apobec(由interpro标注)分别分为两个独立的分支(图11a和11b)。蛋白质结构的比较表明，这四个脱氨酶家族的两个分支具有截然不同的结构，这与它们的interpro命名和基于序列的分类可能相反，图11b和图12)。综上所述，基于人工智能辅助的蛋白质三维结构的蛋白质聚类分类提供了可靠的聚类结果，并且只需要一个氨基酸序列，不需要任何其他基因组推理，是一种比其他方法更方便有效的蛋白质关系生成策略。
[0292]
实施例4、利用三维结构树鉴别scp1.201分支中可用于碱基编辑的脱氨酶的功能
[0293]
在实施例2中通过评估每个分支中的脱氨酶的功能，我们惊讶地发现，一些scp1.201分支的脱氨酶具有催化单链dna底物脱氨基的能力。而在此之前，这些脱氨酶在interpro数据库(pf14428)中被注释为双链dna脱氨酶a样(double-stranded dna deaminase toxin a-like，ddda-like)脱氨酶。其中，ddda酶是近期被应用于一种非crispr的双链dna胞嘧啶碱基编辑器(crispr-free double-stranded dna cytosine base editor，ddcbe)的脱氨酶，能够用于对双链dna胞嘧啶碱基进行脱氨基(ncbi reference sequence:wp_006498588.1)(b.y.mok,m.h.de moraes,j.zeng,d.e.bosch,a.v.kotrys,a.raguram,f.hsu,m.c.radey,s.b.peterson,v.k.mootha,j.d.mougous,d.r.liu,a bacterial cytidine deaminase toxin enables crispr-free mitochondrial base editing.nature 583,631-637(2020).)。也正是由于ddda的存在，其所在的scp1.201分支中的所有蛋白质被注释为双链dna脱氨酶(double-stranded dna deaminases，ddd)。
[0294]
基于此问题，我们使用实施例3中三维结构的蛋白质功能预测，进行了如下工作。为了重新分析这个scp1.201分支，我们从interpro数据库中选择了所有489个scp1.201脱氨酶。我们还纳入了7个其他的蛋白质，这些蛋白质与ddda进行blast比对发现有35％到50％的相似度，但在interpro中分别进行了描述。经过识别和覆盖筛选后，我们对332个scp1.201脱氨酶进行了新的人工智能辅助蛋白质结构分类。结构聚类分析结果显示，scp1.201脱氨酶聚类成具有各自具有独特核心结构域基序的不同亚支(图13a-e)。
[0295]
重要的是，我们发现ddda和其他10个蛋白聚类在了同一个scp1.201的一个亚支中。通过分析该亚支中所有11个蛋白质的3d预测结构，我们发现它们与ddda具有相似的核心结构。鉴于其结构与ddda的相似性，我们预测该亚支中的其他蛋白质也具有双链dna胞嘧啶脱氨功能。
[0296]
实施例5、含ddda亚支的脱氨酶在动物细胞碱基编辑中的验证
[0297]
为了评估实施例4中采用本发明预测方法得到的ddda所在亚支的scp1.201候选蛋白是否与ddda具有功能相似性，即对dsdna具有脱氨作用。我们设计了由该亚支中每个脱氨酶单独形成的ddcbe，或将脱氨酶类比ddda结构分成两个残基的等位位点分开成两部分，并与双tale系统连接在一起组成的ddcbe(方法参见：b.y.mok,m.h.de moraes,j.zeng,d.e.bosch,a.v.kotrys,a.raguram,f.hsu,m.c.radey,s.b.peterson,v.k.mootha,j.d.mougous,d.r.liu,a bacterial cytidine deaminase toxin enables crispr-free mitochondrial base editing.nature 583,631-637(2020).)(图14，表2)。我们在hek293t细胞的jak2和sirt6位点上评估了来自该ddd亚分支的蛋白质，观察到13个蛋白质可以进行dsdna碱基编辑(表2)。下文中，我们将这些脱氨酶命名为双链dna脱氨酶(ddd)，并将它们归入这个新发现的ddd亚分支。
[0298]
表2.ddda所在亚支蛋白质催化活性
[0299]
命名gene idseq id no.dsdna催化活性ddd1scp17728++ddd2/29+ddd3scp00130++ddd4/31+ddd6scp00932+ddd7scp10333++ddd8scp23434++ddd9scp00335++ddd10scp00436+ddd11scp27137+ddd12scp00538+ddd13scp00639++ddd14scp00740+
[0300]
其中符号++表示较强催化活性，+表示较弱催化活性，-表示无催化活性
[0301]
实施例6、不含ddda亚支的脱氨酶在植物细胞和动物细胞碱基编辑中的验证
[0302]
作为对比，本实验进一步评估了其他非含ddda亚支的scp1.201候选蛋白的脱氨基作用。我们从中随机选择了24个蛋白，并将其置于我们的cbe荧光报告系统中。我们发现其中有22个蛋白显示出可检测的荧光，并选出其中13个蛋白来评估哺乳动物细胞中cbe条件下的内源性位点的碱基编辑(图16a，表3)。尽管这些蛋白之前被注释为ddda-like蛋白，但实验结果显示，这些蛋白仅在ssdna上显示出胞嘧啶碱基编辑活性(图13a、图16a和表3)，而对dsdna并未显示出活性(图16b)。基于其功能和作用，在后面的工作中我们将这些来自scp1.201分支的且具有ssdna靶向作用的蛋白命名为单链dna脱氨酶(single-stranded dna deaminases，sdd)。
[0303]
根据上述实验结果，我们惊讶的发现大多数来自scp1.201分支的蛋白质成员是sdd蛋白，而不是interpro数据库(pf14428)中注释的ddda-like蛋白。我们还观察到，这些sdd蛋白与彼此相似且明显区分于ddd蛋白的结构，例如sdd7的结构所示(图13d,13e)。sdd7是针对ssdna编辑效率最高的胞嘧啶碱基编辑器之一。因此，通过本发明的方法，表明了interpro数据库(pf14428)中已标注的ddda-like脱氨酶应进一步细分并重新进行相应的注释。
[0304]
作为对照，我们还根据一维氨基酸序列对来自scp1.201分支的蛋白质进行了聚类，并以jab外群对结构树进行验证，发现jab外群成员分散在整个树中。这些结果表明了使用基于蛋白质结构的分类来比较和评估蛋白质关系的有效性和重要性。
[0305][0306]
另外，综合分析实施例5、6对蛋白质功能的验证结果。结果表明基于人工智能辅助的蛋白质三维结构的蛋白质聚类分类提供了可靠的聚类结果，利用本发明的方法构建的三维结构树可以精准鉴别和预测蛋白质的详细功能。并且只需要一个氨基酸序列，不需要任何其他基因组推理，是一种比其他方法更方便有效的蛋白质关系生成策略。在三维结构树中，当以tm-score不低于0.7为聚类条件时，其聚类结果对蛋白质催化功能的预测结果与实验验证结论相符(表4)。即以相比参照蛋白质的tm打分的tm-score分值不低于0.7为标注进行聚类，所得到的亚支与参比蛋白具有相同或相近的催化功能，本发明的方法显著提高了鉴别和预测效率。
[0307]
表3非ddda所在亚支蛋白质催化活性
[0308][0309]
其中符号++表示较强编辑偏好，+表示较弱编辑偏好，-表示无编辑偏好
[0310]
实施例7新的ddd蛋白与ddda具有不同的编辑偏好
[0311]
由于ddda对5'-tc基序的严格偏好，基于ddda的dsdna碱基编辑器的应用主要局限在tc靶标(b.y.mok,m.h.de moraes,j.zeng,d.e.bosch,a.v.kotrys,a.raguram,f.hsu,m.c.radey,s.b.peterson,v.k.mootha,j.d.mougous,d.r.liu,a bacterial cytidine deaminase toxin enables crispr-free mitochondrial base editing.nature 583,631-637(2020).)。尽管最近进化得到的ddda11显示出了更普遍的适用性，可以用于5'-hc(h＝a,c或t)基序发挥脱氨作用从而实现胞嘧啶碱基编辑，但对ac,cc和gc目标的编辑效率仍然需要提高(b.y.mok,a.v.kotrys,a.raguram,t.p.huang,v.k.mootha,d.r.liu,crispr-free base editors with enhanced activity and expanded targeting scope in mitochondrial and nuclear dna.nat.biotechnol.40,1378-1387)。我们评估了本发明新发现的ddd蛋白，以确定它们是否可以扩大ddcbe的效率和靶向范围。我们将13个属于ddd亚分支的脱氨酶构建到ddcbe中，并评估hek293t细胞内源性jak2和sirt6位点的dsdna碱基编辑情况(图15，图18和表2)。有趣的是，我们发现ddd1、ddd7、ddd8和ddd9的与ddda相
比具有相近或更高的编辑效率(图17a和图18)。重要的是，我们发现ddd1和ddd9在5'-gc基序上的编辑活性比ddda高得多(图17a和图18)。引人注目的是，在jak2中的c10(5
’‑
gc)残基和sirt6中的c11(5
’‑
gc)残基中，我们发现ddda的编辑率分别仅为21.1％和0.6％，而ddd9的编辑率分别为65.7％和45.7％(图17a)。
[0312]
由于与ddda相比，某些ddd蛋白似乎表现出不同的编辑模式，我们试图评估这些ddd蛋白的所有基序偏好。我们首先构建了多个编码jak2目标序列的质粒(b.y.mok,a.v.kotrys,a.raguram,t.p.huang,v.k.mootha,d.r.liu,crispr-free base editors with enhanced activity and expanded targeting scope in mitochondrial and nuclear dna.nat.biotechnol.40,1378-1387)，并将第9-11位的gcc修改为mcn(m/n＝a,t,c和g)的9-11位置，从而分别得到16个不同的质粒，并分别将每个质粒与ddcbe变体一起共转染(图17b)。在对比分析每个mcn的c
·
g-to-t
·
a碱基转换频率后，我们生成了相应的基序logo图来反映每个dsdna脱氨酶的序列上下文偏好(图17c)。如前所述，我们发现ddda及其结构同源物ddd7强烈倾向于5'-tc基序(图17c、图19)。相反，我们发现ddd1和ddd9倾向于编辑5'-gc基序的底物，而ddd8倾向于编辑5'-wc(w＝a或t)基序底物。因此，通过对ddd子分支的更深入分析，我们发现了一整套可用于不同基序编辑的新的ddd蛋白，这些蛋白极大地扩展了ddcbe的靶向范围和实用性，并显示出巨大的应用潜力(图17c，图19)。
[0313]
实施例8、sdd脱氨酶在人类细胞和植物中的碱基编辑
[0314]
接下来，我们想知道新发现的sdd蛋白是否也可以用于更精确或更有效的碱基编辑。为此我们选择了六个最活跃的sdd和四个较弱的sdd进行评估，并使用荧光报告系统比较它们的活性(表3)。我们为10个sdd分别设计了植物的cbe，并在水稻原生质体的6个位点上评估了它们的内源碱基编辑(图20和图21)。我们发现其中7种脱氨酶(sdd7,sdd9,sdd5,sdd6,sdd4,sdd76和sdd10)比大鼠apobec1(rapobec1)为基础的cbe具有更高的活性。最活跃的sdd7碱基编辑器胞嘧啶碱基编辑率高达55.6％，是rapobec1的3.5倍以上。
[0315]
为检验这些脱氨酶的通用性，我们也构建了相应的人细胞靶向be4max载体(l.w.koblan,j.l.doman,c.wilson,j.m.levy,t.tay,g.a.newby,j.p.maianti,a.raguram,d.r.liu,improving cytidine and adenine base editors by expression optimization and ancestral reconstruction.nat.biotechnol.36,843-846(2018).)，并评估了它们在hek293t细胞中三个内源性靶点的编辑效率。在hek293t细胞中的结果与水稻中的结果一致，我们发现sdd7具有最高的编辑活性(图22)。
[0316]
我们之前发现人类apobec3a(a3a)在植物具有大的编辑窗，发挥强编辑活性(y.zong,q.song,c.li,s.jin,d.zhang,y.wang,j.-l.qiu,c.gao,efficient c-to-t base editing in plants using a fusion of ncas9 and human apobec3a.nat.biotechnol.36,950-953(2018).,q.lin,z.zhu,g.liu,c.sun,d.lin,c.xue,s.li,d.zhang,c.gao,y.wang,j.-l.qiu,genome editing in plants with mad7 nuclease.j.genet.genomics 48,444-451(2021).)。因此，我们比较了a3a和sdd7在人类细胞(图22)和植物(图23)中的编辑活性。有趣的是，sdd7在hek293t细胞的所有三个靶点(图22)和水稻原生质体的五个内源性位点(图23)上具有与a3a相当的编辑活性。这些结果证实了sdd7是一个强大的胞嘧啶碱基编辑器，可普遍适用用于植物和人类细胞。
[0317]
实施例9、sdd蛋白具有独特的碱基编辑特性
[0318]
在评估内源性碱基编辑时，我们观察到不同sdd-cbe在人类和水稻细胞中所测试的基因组靶位点上的不同编辑模式。例如，虽然sdd7、sdd9和sdd6没有显示出特定的基序编辑偏好，但sdd3似乎更喜欢编辑5'-gc和5'-ac基序，而强烈不喜欢编辑5'-tc和5'-cc motif(图24)。为了更好地分析每个脱氨酶的编辑模式，我们使用了靶向报告锚定位置测序(targeted reporter anchored positional sequencing，trap-seq)，这是一种用于碱基编辑结果并行量化的高通量方法(xi xiang,kunli qu,xue liang,xiaoguang pan,jun wang,peng han,zhanying dong,lijun liu,jiayan zhong,tao ma,yiqing wang,jiaying yu,xiaoying zhao,siyuan li,zhe xu,jinbao wang,xiuqing zhang,hui jiang,fengping xu,lijin zou,huajing teng,xin liu,xun xu,jian wang,huanming yang,lars bolund,george m.church,lin lin,yonglun luo.(2020).massively parallel quantification of crispr editing in cells by trap-seq enables better design of cas9,abe,cbe grnas of high efficiency and accuracy.biorxiv 2020.05.20.103614)。一个包含12000个trap结构的12k trap-seq文库通过慢病毒转导稳定地集成到hek293t细胞中，每个trap结构包含一个独特的grna表达盒和相应的替代靶位点。在细胞培养和抗体选择之后，碱基编辑器被瞬时转染到这个12k-trap细胞系中，然后进行10天的嘌呤霉素和杀稻瘟菌素选择(图25a)。在转染后第11天，我们提取基因组dna并进行深度扩增子测序，以评估每种脱氨酶的编辑产物(图25a)。我们发现，虽然sdd7和sdd6没有表现出强烈的序列上下文偏好，但rapobec1对5'-tc和5'-cc碱基有强烈的偏好，而对5'-gc和5'-ac碱基不感兴趣(图25b)。相反，sdd3表现出完全互补的模式，倾向于编辑5'-gc和5'-ac碱基，而对5'-tc和5'-cc碱基几乎没有活性(图25b)。有趣的是，我们发现与rapobec1和sdd7相比，sdd6和sdd3具有不同的编辑窗口，并且更喜欢编辑远pam端的+1到+3位置(图25b)。总之，新识别的sdd基编辑器与传统胞嘧啶碱基编辑器相比显示了独特的基编辑特性，如增加的编辑效率，不同的脱氨基偏好，以及改变的编辑窗口。
[0319]
实施例10、sdd蛋白的高保真编辑特性
[0320]
先前有报道称cbe可能导致全基因组基于cas9的脱靶编辑结果，这引起了人们对这些精确基因组编辑技术用于临床应用的安全性的担忧。我们认为这些脱靶突变可能是胞苷脱氨酶过表达的结果。我们想知道新发现的sdd蛋白是否能在脱靶编辑和靶向编辑之间提供更有利的平衡。因此，我们在水稻原生质体中使用正交r-loop试验评估了10个sdd的cas9独立脱靶效应。我们发现10种脱氨酶中的6种(sdd2、sdd3、sdd4、sdd6、sdd10和sdd59)脱靶活性低于rapobec1。有趣的是，虽然sdd6几乎没有表现出脱靶编辑活性，但在水稻和人类细胞的六个内源性位点上进行测试时，它仍然具有很强的靶向碱基编辑能力(图26a和图27)。当我们分析这10种脱氨酶的on-target:off-target比例时，sdd6表现出最高的on-target:off-target编辑比例，是apobec1的37.6倍(图26b)。我们进一步比较了hek293t细胞中sdd6与rapobec1及其两种高保真脱氨酶变体ye1和yee的靶上和脱靶编辑。重要的是，我们发现sdd6具有最高的on-target:off-target编辑比，经计算分别比rapobec1、ye1和yee高2.8倍、2.1倍和2.5倍(图26b、c和图28)，比ha3a高10.4倍(图26c和图28)。值得注意的是，sdd6的on-target活性与rapobec1相当，远高于ye1和yee(图28)。因此，我们确定scp1.201分支包含独特且更精确的sdd蛋白，可用作高保真碱基编辑器。
[0321]
实施例11、alphafold2结构预测辅助sdd蛋白的合理设计
[0322]
尽管利用病毒进行cbe的递送在疾病治疗方面具有巨大潜力，但apobec/aid样脱氨酶的大尺寸限制了它们被包装成单个腺相关病毒(aav)颗粒用于体内编辑应用的能力(31)。在他人的工作中开发了双aav策略递送方法，将cbe分裂为氨基端和羧基端片段，并将它们包装成单独的aav颗粒。然而，这些递送工作将挑战大规模生产能力，更高的病毒剂量，并对人类使用的安全性构成潜在挑战。最近，一种基于cda-1的截短七鳃鳗cbe被用于开发单aav封装的cbe，但这些载体几乎没有hek293t细胞编辑活性。由于scp1.201脱氨酶具有规范的致密性和保守性，我们认为它们可能是用于开发单aav封装的cbe的理想蛋白。本发明尝试使用人工智能辅助的三维结构蛋白质建模来进一步设计和缩短新发现的sdd蛋白质的大小。
[0323]
我们首先比较了所有活性sdd脱氨酶的alphafold2预测结构，发现它们具有保守的核心结构(图13d,13e和图29)。然后，我们分别生成了sdd7、sdd6、sdd3、sdd9、sdd10和sdd4的多个截短变体，并分别在两个位点的水稻原生质体中测试了这些变体的内源性碱基编辑。我们发现mini-sdd7、mini-sdd6、mini-sdd3、mini-sdd9、mini-sdd10和mini-sdd4是新最小化的脱氨酶，它们都很小(～130-160aa)，与水稻原生质和人类细胞中的全长蛋白相比具有相当或更高的编辑效率(图30a)。引人注目的是，所有mini脱氨酶都支持构建单aav封装的基于sacas9的cbe(《4.7kb)(图30b)。我们使用mini-sdd6构建了单aav的sacas9载体，通过瞬时转染发现其在小鼠成神经细胞瘤n2a细胞的hpd基因(小家鼠4-羟基苯丙酮酸双加氧酶)的两个位点上具有约60％的编辑效率(图30c)。这些结果表明，在基于aav的crispr碱基编辑传递方面，sdd蛋白比apobec/aid脱氨酶具有更大的优势。进一步缩短sdd蛋白用于aav包装的成功，凸显了本发明基于三维结构蛋白质功能预测方法的的巨大潜力。
[0324]
实施例12、基于新sdd的cbe的碱基编辑能力
[0325]
接下来，我们探讨了新的sdd工程蛋白在植物碱基编辑中的应用。我们首先评估了在农杆菌介导的水稻基因组编辑中使用mini-sdd7的能力，与农业应用中最常用的基于人a3a(ha3a)的cbe，基于mini-sdd7的cbe中观察到水稻阳性植株更多，编辑的植物数量更大、编辑效率更高，这反映了其相比ha3a的cbe效率更高，毒性更低(图31)。
[0326]
大豆是世界各地种植的最重要的主要作物之一，是植物油和蛋白质的基本来源。尽管碱基编辑已经在大豆中得到了证明，但在大豆作物的大多数测试位点上，它仍然存在编辑困难和低编辑效率的问题。为了了解我们新开发的基于sdd的cbe是否会在大豆中产生更好的胞嘧啶碱基编辑效果。我们使用驱动sgrna表达的atu6启动子和驱动cbe表达的camv 2
×
35s启动子构建了载体，并对其利用农杆菌介导转化后的转基因大豆毛状根进行了评估(图32)。我们发现apobec/aid脱氨酶在所有五个评估位点上的编辑活性都很低，包括gmals1-t2和gmppo2位点，这两个位点特别难以被大豆中的其他cbe编辑(图30d)。值得注意的是，mini-sdd7在5个位点上的胞嘧啶碱基编辑水平分别是其他脱氨酶rapobec1、ha3a和haid的26.3倍、28.2倍和10.8倍，编辑效率高达67.4％(图30d)。因此，我们可重点利用这些新发现的sdd蛋白来克服大豆作物在高效胞嘧啶碱基编辑方面的局限性。
[0327]
接下来，我们试图使用mini-sdd7进行碱基编辑，获得农杆菌介导的转基因大豆植株。我们选择编辑内源性gmppo2基因以产生r98c突变，这将导致耐卡芬曲酮乙基的大豆植株。我们从三次独立转化的实验中获得了77个转基因大豆幼苗中，其中有21个碱基编辑的杂合子(图30e,f)。用唑草酮处理10天后，我们可以明显观察到野生型植株对萎蔫敏感且不
能生根，但突变型植株生长良好、正常(图30g)。开发用于大豆植物的高效胞嘧啶碱基编辑器可以在未来实现多种应用。
[0328]
实施例13、其他家族的蛋白质的碱基编辑特性
[0329]
除了对scp1.201家族的蛋白进行详细的分类和验证之外，我们还对iyer脱氨酶分类家族(表1)中的其他家族的脱氨酶功能和偏好进行了验证。根据我们的分析和验证方法，我们在mafb19、aid/apobec、novel aid/apobec-like、tm1506、toxin deam、xoo2897等其他家族中也发现了一系列具有类似的sdd活性的脱氨酶(具体脱氨酶参见表5)。以mafb19家族为例，在实施例2中我们已经发现部分mafb19分支的蛋白质(no.101m)具有单链脱氨酶的功能。并且在实施例3中我们基于人工智能辅助的蛋白质三维结构的聚类分类，发现mafb19脱氨酶家族中存在具有截然不同的结构两个分支(图11b和图12)。应用本发明的脱氨酶筛选及鉴别方法，我们在mafb19家族中发现了该家族的三个蛋白(no.2-1241、no.2-1231、no.99)也具有sdd催化活性，并得到了其碱基编辑序列的基序偏好(表5)。本发明方法筛选出的多种具有不同编辑特性的新的胞嘧啶碱基脱氨酶，丰富了碱基编辑工具、扩充了碱基编辑系统、提升了精确操纵目标dna序列的能力。
[0330][0331]
实验结论：
[0332]
基于传统脱氨酶的cbe具有编辑效率低、编辑窗小、明显偏好等缺点。利用本发明的基于三维结构的蛋白质功能预测方法得到了一系列新的胞嘧啶脱氨酶。
[0333]
这些胞嘧啶脱氨酶被证明具有良好的应用潜力和广阔的应用场景。例如，在利用农杆菌介导转化后的转基因大豆毛状根。我们发现apobec/aid脱氨酶在所有五个评估位点
上的编辑活性都很低，包括gmals1-t2和gmppo2位点，这两个位点特别难以被大豆中的其他cbe编辑。值得注意的是，与rapobec1、ha3a和haid相比，mini-sdd7在5个位点上分别显示出26.3倍、28.2倍和10.8倍的胞嘧啶碱基编辑水平，编辑效率高达67.4％。因此，我们强调利用这些新发现的sdd蛋白来克服大豆作物胞嘧啶碱基高效编辑的局限性。接下来，我们试图使用mini-sdd7进行碱基编辑，获得农杆菌介导的转基因大豆植株。我们选择编辑内源性gmppo2基因以产生r98c突变，这将产生耐唑草酮的大豆植株。我们从30个转基因大豆幼苗中获得了两个碱基编辑的杂合子。用唑草酮处理10天后，我们可以明显观察到野生型植株对萎蔫敏感，不能生根，但突变型植株生长良好，正常。开发用于大豆植物的高效胞嘧啶碱基编辑器可以在未来实现多种应用。我们相信在未来与结构预测并行的测序工作将极大地推进功能蛋白的挖掘、跟踪、分类和设计。目前只有少数胞嘧啶脱氨酶被用作胞嘧啶碱基编辑器。仅基于蛋白质工程和定向进化的规范努力有助于多样化编辑特性，然而，这些努力通常难以建立。利用我们基于三维结构的聚类预测方法，我们发现并分析了一套具有不同性质的脱氨酶。例如，在新发现的脱氨酶中，我们发现sdd7和sdd6在治疗和农业应用方面都有很大的前景。sdd7在所有测试的物种中都具有强大的碱基编辑能力，并且比最常用的apobec/aid样脱氨酶具有更高的编辑活性。令人惊讶的是，我们发现sdd7能够在大豆植株中进行高效的编辑，而此前在大豆植株中对胞嘧啶碱基的编辑仍然存在困难(植物基因中通常具有高gc序列含量)。我们推测，与哺乳动物apobec/aid脱氨酶相比，来源于细菌actinosynnema mirum的sdd7可能在适合大豆生长的温度下具有较高的活性。在分析sdd6时，我们发现这种脱氨酶在保持高靶向编辑活性的同时，默认情况下比其他脱氨酶更具特异性。有趣的是，我们发现基于alphafold2的建模进一步使我们的蛋白质工程工作能够最小化蛋白质大小，这对于将这些编辑技术用于体内治疗应用的病毒传递至关重要。
[0334]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

技术特征：
1.一种胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶能够使dna中脱氧胞苷的胞嘧啶碱基脱氨基。2.根据权利要求1的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶来自细菌。3.根据权利要求1或2的胞嘧啶脱氨酶，所述胞嘧啶脱氨酶与参比胞嘧啶脱氨酶的alphafold2三维结构的tm-score评分不低于0.6、不低于0.7、不低于0.75、不低于0.8、不低于0.85，且包含与参比胞嘧啶脱氨酶的氨基酸序列具有20-70％、20-60％、20-50％、20-45％、20-40％、20-35％序列相同性或具有至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％序列相同性的氨基酸序列；该胞嘧啶脱氨酶能够使dna的脱氧胞苷的胞嘧啶碱基脱氨基。4.根据权利要求3的胞嘧啶脱氨酶，所述参比胞嘧啶脱氨酶为：(a)序列示于seq id no：64的rapobec1；或(b)序列示于seq id no：65的ddda；或(c)序列示于seq id no：4的sdd7。5.根据权利要求4的胞嘧啶脱氨酶，其与序列示于seq id no：64的rapobec1的alphafold2三维结构的tm-score评分不低于0.6、不低于0.7、不低于0.75、不低于0.8、不低于0.85，且包含与seq id no：64具有20-70％、20-60％、20-50％、20-45％、20-40％、20-35％序列相同性或具有至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％序列相同性的氨基酸序列；该胞嘧啶脱氨酶能够使dna的脱氧胞苷的胞嘧啶碱基脱氨基。6.根据权利要求4的胞嘧啶脱氨酶，其与序列示于seq id no：65的ddda的alphafold2三维结构的tm-score评分不低于0.6、不低于0.7、不低于0.75、不低于0.8、不低于0.85，且包含与seq id no：65具有20-70％、20-60％、20-50％、20-45％、20-40％、20-35％序列相同性或具有至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％序列相同性的氨基酸序列；该胞嘧啶脱氨酶能够使dna的脱氧胞苷的胞嘧啶碱基脱氨基。7.根据权利要求4的胞嘧啶脱氨酶，其与序列示于seq id no：4的sdd7的alphafold2三维结构的tm-score评分不低于0.6、不低于0.7、不低于0.75、不低于0.8、不低于0.85，且包含与seq id no：4具有20-70％、20-60％、20-50％、20-45％、20-40％、20-35％序列相同性或具有至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％序列相同性的氨基酸序列；该胞嘧啶脱氨酶能够使dna的脱氧胞苷的胞嘧啶碱基脱氨基。8.根据权利要求1-7中任一项的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶来自aid/apobec分支、scp1.201分支、mafb19分支、novel aid/apobec-like分支、tm1506分支、xoo2897或toxin deam分支。9.根据权利要求8的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶来自aid/apobec分支，包含
与seq id no:1或63具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。10.根据权利要求8的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶来自scp1.201分支，包含与seq id no：28-40中任一项具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。11.根据权利要求10的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶能够对双链dna的胞嘧啶碱基进行脱氨基。12.根据权利要求10或11的胞嘧啶脱氨酶，所述胞嘧啶脱氨酶的氨基酸序列包含seq id no：28-40中的任一项的氨基酸序列。13.根据权利要求12的胞嘧啶脱氨酶，所述胞嘧啶脱氨酶的氨基酸序列包含seq id no：28、33、34、35中的任一项的氨基酸序列。14.根据权利要求8的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶来自scp1.201分支，包含与seq id no：2-18、41-49中任一项具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。15.根据权利要求14的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶能够对单链dna的胞嘧啶碱基进行脱氨基。16.根据权利要求14或15的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶的氨基酸序列包含seq id no：2-18、41-49中的任一项的氨基酸序列。17.根据权利要求16的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶的氨基酸序列包含seq id no：2-7、12、17中的任一项的氨基酸序列。18.根据权利要求1-17中任一项的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶为截短的胞嘧啶脱氨酶，所述截短的胞嘧啶脱氨酶能够使dna的脱氧胞苷的胞嘧啶碱基脱氨基。19.根据权利要求18的胞嘧啶脱氨酶，其中所述截短的胞嘧啶脱氨酶的长度范围为130-160个氨基酸。20.根据权利要求19的胞嘧啶脱氨酶，其中所述截短的胞嘧啶脱氨酶可被单独包装在aav颗粒中。21.根据权利要求18-20中任一项的胞嘧啶脱氨酶，其中所述截短的胞嘧啶脱氨酶包含与seq id no：50-55中任一项具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。22.根据权利要求21的胞嘧啶脱氨酶，其中所述截短的胞嘧啶脱氨酶能够对单链dna的胞嘧啶碱基进行脱氨基。23.根据权利要求21或22的胞嘧啶脱氨酶，其中所述截短的胞嘧啶脱氨酶由seq id no：50-55的任一项的氨基酸序列组成。24.根据权利要求8的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶来自mafb19分支，包含与seq id no：19、56、57、58中任一项具有至少50％、至少60％、至少70％、至少75％、至少
80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。25.根据权利要求8的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶来自novelaid/apobec-like分支，包含与seq id no：20、21中任一项具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。26.根据权利要求8的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶来自tm1506分支，包含与seq id no：22具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。27.根据权利要求8的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶来自xoo2897分支，包含与seq id no：23、24、59-62中任一项具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。28.根据权利要求8的胞嘧啶脱氨酶，其中所述胞嘧啶脱氨酶来自toxin deam分支，包含与seq id no：74或75具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、甚至100％序列相同性的氨基酸序列。29.根据权利要求1-28中任一项的胞嘧啶脱氨酶用于在生物体或生物体细胞中进行基因编辑例如碱基编辑中的用途。30.一种融合蛋白，其包含：(a)核酸靶向结构域；和(b)胞嘧啶脱氨结构域，其中所述胞嘧啶脱氨结构域包含至少一个权利要求1-28中任一项的胞嘧啶脱氨酶多肽。31.权利要求30的融合蛋白，其中所述核核酸靶向结构域为tale、zfp或crispr效应蛋白结构域。32.权利要求31的融合蛋白，其中所述crispr效应蛋白是cas9、cpf1、cas3、cas8a、cas5、cas8b、cas8c、cas10d、cse1、cse2、csy1、csy2、csy3、gsu0054、cas10、csm2、cmr5、cas10、csx11、csx10、csf1、csn2、cas4、c2c1(cas12b)、c2c3、c2c2、cas12c、cas12d、cas12e、cas12f、cas12g、cas12h、cas12i、cas12j、cas12l、cas12m或其它可用的crispr效应蛋白中的至少一种。33.权利要求32的融合蛋白，其中所述cas9是核酸酶失活的cas9、cas9切口酶或核酸酶活性的cas9。34.权利要求33的融合蛋白，其中所述cas9是核酸酶失活的cas9，核酸酶失活的cas9包含seq id no:26所示的氨基酸序列。35.权利要求30-34中任一项的融合蛋白，其中所述核酸靶向结构域和所述胞嘧啶脱氨结构域通过接头融合。36.权利要求30-35中任一项的融合蛋白，其中所述融合蛋白与尿嘧啶dna糖基化酶抑制剂(ugi)共表达。
37.权利要求30-35中任一项的融合蛋白，其中所述融合蛋白还包含尿嘧啶dna糖基化酶抑制剂(ugi)，例如，所述ugi通过接头与所述融合蛋白其它部分连接，或所述ugi通过“自裂解肽”与所述融合蛋白其它部分连接。38.权利要求30-37中任一项的融合蛋白，其中所述融合蛋白还包含一个或多个核定位序列(nls)。39.一种用于对核酸靶区域进行修饰的碱基编辑系统，其包含：i)权利要求1-28中任一项的胞嘧啶脱氨酶或权利要求30-38中任一项的融合蛋白，和/或含有编码所述胞嘧啶脱氨酶或融合蛋白的核苷酸序列的表达构建体。40.权利要求39的碱基编辑系统，其中所述碱基编辑系统还包含：ii)至少一种向导rna和/或至少一种含有编码所述至少一种向导rna的核苷酸序列的表达构建体；和/或iii)至少一种尿嘧啶dna糖基化抑制剂(ugi)和/或至少一种含有编码所述尿嘧啶dna糖基化抑制剂(ugi)的核苷酸序列的表达构建体；和/或iv)核定位序列(nls)。41.权利要求40的碱基编辑系统，其中所述至少一种向导rna可以与所述融合蛋白的核酸靶向结构域结合，且所述向导rna针对所述核酸靶区域内的至少一个靶序列。42.权利要求41的碱基编辑系统，其中所述向导rna的长度为15-100个核苷酸并且包含与靶序列互补的至少10个、至少15个或至少20个连续核苷酸的序列。43.权利要求42的碱基编辑系统，其中所述向导rna包含与靶序列互补的15至40个连续核苷酸序列。44.权利要求40-43中任一项的碱基编辑系统，其中所述向导rna的长度为15-50个核苷酸。45.权利要求40-44中任一项的碱基编辑系统，其中所述靶核酸是dna。46.权利要求40-45中任一项的碱基编辑系统，其中所述靶核酸在生物体的基因组中。47.权利要求46的碱基编辑系统，其中所述生物体是原核生物如细菌；真核生物如植物、真菌或脊柱动物。48.权利要求47的碱基编辑系统，其中所述脊柱动物是哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫。49.权利要求47的碱基编辑系统，其中所述植物是作物植物，例如小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯或马铃薯。50.一种碱基编辑方法，其中包括将权利要求39-49中任一项的碱基编辑系统与核酸分子靶序列接触。51.权利要求50的碱基编辑方法，其中所述核酸分子为dna分子，例如，所述核酸分子为双链dna分子或单链dna分子。52.权利要求50-51中任一项的碱基编辑方法，其中所述核酸分子靶序列包含与植物性状或表达相关的序列。53.权利要求50-51中任一项的碱基编辑方法，其中所述核酸分子靶序列包含与疾病或病症相关的序列或点突变。54.权利要求50-53中任一项的碱基编辑方法，其中所述碱基编辑系统与核酸分子靶序
列接触发挥脱氨基作用，所述脱氨基作用导致靶序列的一个或多个核苷酸发生取代。55.权利要求50-54中任一项的碱基编辑方法，其中所述靶序列包含dna序列5
’‑
mcn-3’，其中m是a、t、c或g；n是a、t、c或g；其中在5
’‑
mcn-3’序列中间的c被脱氨基。56.权利要求50-55中任一项的碱基编辑方法，其中所述脱氨基作用导致剪接位点的引入或去除。57.权利要求50-55中任一项的碱基编辑方法，其中所述脱氨基作用导致基因启动子中突变的引入，所述突变导致与所述基因启动子可操作连接的基因的转录增加或减少。58.权利要求50-55中任一项的碱基编辑方法，其中所述脱氨基作用导致基因阻抑物中突变的引入，所述突变导致与所述基因阻抑物可操作连接的基因的转录增加或减少。59.权利要求50-58中任一项的碱基编辑方法，其中所述接触在生物体内进行或其中所述接触在生物体外进行。60.一种产生至少一个经遗传修饰的细胞的方法，包括将权利要求39-49中任一项的碱基编辑系统导入至少一个所述细胞，由此导致所述至少一个细胞中靶核酸区域内的一个或多个核苷酸发生取代，例如，所述一个或多个核苷酸取代是c至t取代。61.权利要求60的方法，还包括从所述至少一个细胞筛选具有期望的一个或多个核苷酸取代的细胞的步骤。62.权利要求60或61的方法，其中所述碱基编辑系统通过选自以下的方法导入细胞：磷酸钙转染、原生质融合、电穿孔、脂质体转染、微注射、病毒感染(如杆状病毒、痘苗病毒、腺病毒、腺相关病毒、慢病毒或其他病毒)、基因枪法、peg介导的原生质体转化、土壤农杆菌介导的转化。63.权利要求60-62中任一项的方法，其中所述细胞来自哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物，优选作物植物，例如小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯和马铃薯。64.一种蛋白质聚类方法，其中包括：(1)从数据库获得多个候选蛋白质的序列；(2)使用蛋白质预测程序预测所述多个候选蛋白质各自的三维结构；(3)使用打分函数对所述多个候选蛋白质的三维结构进行多重结构比对，由此获得结构相似度矩阵；(4)使用系统发育树构建方法基于所述结构相似度矩阵对所述多个候选蛋白质进行聚类。65.权利要求64的蛋白质聚类方法，其中步骤(1)中通过数据库中的注释信息获得所述多个候选蛋白质的序列；或其中步骤(1)中通过用参比蛋白质的序列在数据库中基于序列相同性/相似性搜索获得所述多个候选蛋白质的序列。66.权利要求64或65的蛋白质聚类方法，其中所述候选蛋白质为脱氨酶，优选胞嘧啶脱氨酶。67.权利要求64-66中任一项的蛋白质聚类方法，其中所述数据库是interpro数据库。68.权利要求64-67中任一项的蛋白质聚类方法，其中所述步骤(2)中的蛋白质结构预测程序选自alphafold2、rosett或其它可以对蛋白质结构预测的程序。69.权利要求64-68中任一项的蛋白质聚类方法，其中所述步骤(3)中使用的打分函数
包括tm-score、rmsd、lddt、gdt score、qsc、fape或其它可以对蛋白质结构相似度打分的打分函数。70.权利要求64-69中任一项的蛋白质聚类方法，其中所述步骤(4)中的系统发育树构建方法为upgma。71.权利要求64-70中任一项的蛋白质聚类方法，其中步骤(4)获得所述多个候选蛋白质的聚类树状图。72.一种基于三维结构的蛋白质功能预测方法，所述方法包括根据权利要求64-71中任一项的蛋白质聚类方法对多个候选蛋白质进行聚类，然后根据聚类结果预测所述候选蛋白质功能。73.权利要求72的蛋白质功能预测方法，其中所述多个候选蛋白质包括至少一个功能已知的参比蛋白质。74.权利要求73的蛋白质功能预测方法，其中通过已知功能的参比蛋白质在聚类(树状图)中的位置，预测参比蛋白质所在分支或亚支的其它候选蛋白质的功能。75.权利要求73或74的蛋白质功能预测方法，其中所述参比蛋白质为脱氨酶，例如胞嘧啶脱氨酶。76.权利要求75的蛋白质功能预测方法，其中其中所述参比蛋白质为参比胞嘧啶脱氨酶，所述参比胞嘧啶脱氨酶为序列示于seq id no：64的rapobec1或序列示于seq no：65的ddda。77.一种基于三维结构的鉴定蛋白质最小功能结构域的方法，其包括a)对通过权利要求64-71中任一项的蛋白质聚类方法聚类在一起，例如聚类于相同分支或亚支的多个候选蛋白质的结构进行比对，确定保守核心结构；b)鉴定所述保守核心结构为最小功能结构域。78.权利要求77的方法，其中所述多个候选蛋白质包括至少一个功能已知的参比蛋白质。79.权利要求78的方法，其中所述参比蛋白质为脱氨酶，优选所述参比蛋白质为胞嘧啶脱氨酶。80.权利要求79的方法，其中所述参比蛋白质为参比胞嘧啶脱氨酶，所述参比胞嘧啶脱氨酶为序列示于seq id no：64的rapobec1或序列示于seq no：65的ddda。81.一种通过权利要求75-76中任一项的蛋白质功能预测方法鉴定的胞嘧啶脱氨酶。82.一种截短的胞嘧啶脱氨酶，其包含或由通过权利要求79-80中任一项的方法鉴定的胞嘧啶脱氨酶最小功能结构域组成。83.权利要求81所述的胞嘧啶脱氨酶或权利要求81所述截短的胞嘧啶脱氨酶用于在生物体或生物体细胞中进行基因编辑例如碱基编辑中的用途。84.一种核酸分子，其编码权利要求1-28中任一项的胞嘧啶脱氨酶，或权利要求29-37中任一项的融合蛋白。85.一种细胞，其包含权利要求1-28中任一项的胞嘧啶脱氨酶，或权利要求30-38中任一项的融合蛋白，或权利要求39-49中任一项的碱基编辑系统，或权利要求84中的核酸分子。86.一种含有核酸构建体的试剂盒，其中所述核酸构建体包含：
(a)编码权利要求1-28中任一项的胞嘧啶脱氨酶的核酸序列；和(b)驱动(a)的序列的表达的异源启动子。87.一种含有核酸构建体的试剂盒，其中所述核酸构建体包含：(a)编码权利要求30-38中任一项的融合蛋白的核酸序列；和(b)驱动(a)的序列的表达的异源启动子。88.权利要求86-87中任一项的试剂盒，其中进一步含有编码引导rna主链的表达构建体，其中所述构建体包含克隆位点，所述克隆位点允许将与靶序列相同或互补的核酸序列克隆到所述引导rna主链中。89.一种组合物，其包含权利要求1-28中任一项的胞嘧啶脱氨酶，或权利要求30-38中任一项的融合蛋白，或权利要求39-49中任一项的碱基编辑系统，或权利要求84中的核酸分子。90.权利要求89中的组合物，其中所述胞嘧啶脱氨酶、融合蛋白、碱基编辑系统或核酸分子被包装进病毒、病毒样颗粒、病毒体、脂质体、囊泡、外来体、脂质体纳米颗粒(lnp)。91.权利要求90中的组合物，其中所述病毒为腺相关病毒(aav)或重组腺相关病毒(raav)。92.权利要求89-91中的组合物，其是药物组合物，且还包含药学可接受的载体。

技术总结
本发明涉及基因工程领域。具体而言，本发明涉及胞嘧啶脱氨酶及其在碱基编辑中的用途。更具体而言，本发明涉及一种筛选鉴定脱氨酶的方法，基于新鉴定的胞嘧啶脱氨酶的碱基编辑系统，使用该碱基编辑系统对生物体(例如植物)基因组中的靶序列进行碱基编辑的方法，以及通过所述方法产生的经遗传修饰的生物体(例如植物)及其后代。物)及其后代。

技术研发人员：高彩霞林秋鹏黄佳颖 K
受保护的技术使用者：中国科学院遗传与发育生物学研究所
技术研发日：2023.03.07
技术公布日：2023/8/9

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

胞嘧啶脱氨酶及其在碱基编辑中的用途

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

胞嘧啶脱氨酶及其在碱基编辑中的用途

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表